超星南京速通
本文最后更新于0 天前,其中的信息可能已经过时,如有错误请发送邮件到2750241635@qq.com
  • 自我介绍:
  • 转专业原因:
  • 硕士期间主要的研究内容:
  • 交通方向前沿性的研究:扯了ai
  • 知识库是自己写的?实习项目的介绍
  • 数据库项目介绍?
  • 接触过springCloud吗?
  • 如果让你做一个高可用、高性能的消息队列中间件,你的设计思路是什么?
    • 生产者建立消息发送确认机制
    • broker层实现消息持久化(使用replica副本思想),先写日志再传递消息防止消息丢失
    • 消费者使用消费者组满足高性能大吞吐消耗固定topic
    • 注册中心定期接收各个部件心跳操作,当某个节点挂了后及时感知并触发兜底措施(如服务降级,熔断等)
  • mysql怎么优化慢查询语句?
    • 首先根据explain命令,观察key(可能走的索引),keylen(实际用到的索引长度),extra字段(查看是否回表或全盘扫描)以确定瓶颈,然后分别执行对应的优化操作(例如添加索引、保证查询字段覆盖索引、避免使用*,注意隐式转换、多表连接要小表驱动大表等)
  • 研究生阶段的成绩
  • redis:假设A明星有两百万粉丝,B明星有三百万粉丝,如何快速去求出两个明星共同的粉丝?假设应用上限为一千万用户,使用bitmap思想,key为fans_{actorname},value为2^10*10^4的数组,每位0或1表示对应id的粉丝是否关注,然后两个actor的bitmap对应位执行”与”操作
  • 追问:如果不用bitmap思想,考虑用什么其他的数据结构?可以用set,具体执行思路不清楚,可能执行效率和空间不如bitmap方案
  • redis的持久化策略?RDB和AOF,两种方式各有优劣,一般配合使用
  • 知识库项目使用了什么数据库?minIO(存用户分片的文件,然后调用对应的合并api执行合并操作) + elasticsearch(存储每个分块后语句对应的向量,后续执行检索) + mysql(存储用户信息表、文件上传记录表)
  • 知识库支持哪些文件类型上传?文档类型基本都支持(txt , word, pdf等)图片不支持 后续考虑用图转文或者CLIP优化
  • es存向量,具体用的是什么索引?用的dense_vector(这里不太了解)
  • 追问,那你的这种方案不会造成查询很慢吗?确实会有性能瓶颈,当前方案主要是从企业定制化的角度去考虑,优点是可以实现细粒度操作(如权限过滤、混合检索等等,相应参数可自己调),缺点是相比成熟轮子框架(如langchain等)性能很慢,后续考虑对es这边优化(优化ann为hnfw,或直接替换es为faiss)
  • 上传文件分片是如何分的?主流方案是固定分块+语义分块,从成本和实现难度上考虑选择第一种,并引入overlap策略保证分片重叠一定程度上缓解中间词截断的缺陷
  • 所以目前做的还是一个小demo?对 设计最初是首先跑通整个链路,后续再针对不同需求进行相应优化
  • 大模型这块有做过微调工作吗,就是SFT?没了解,只做过rag和prompt engineering
  • 研究生阶段的成果?
  • 闲聊,哪里人
  • 反问:技术栈和业务,图书馆服务平台升级改造(2017 -至今 ,1800+用户)+ 高效教学产品(增强检索 ai相关产品开发 基于python 对开源产品的改造升级)

一周后意向 已拒

文末附加内容
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇