本文最后更新于0 天前,其中的信息可能已经过时,如有错误请发送邮件到2750241635@qq.com
- 自我介绍:
- 转专业原因:
- 硕士期间主要的研究内容:
- 交通方向前沿性的研究:扯了ai
- 知识库是自己写的?实习项目的介绍
- 数据库项目介绍?
- 接触过springCloud吗?
- 如果让你做一个高可用、高性能的消息队列中间件,你的设计思路是什么?
- 生产者建立消息发送确认机制
- broker层实现消息持久化(使用replica副本思想),先写日志再传递消息防止消息丢失
- 消费者使用消费者组满足高性能大吞吐消耗固定topic
- 注册中心定期接收各个部件心跳操作,当某个节点挂了后及时感知并触发兜底措施(如服务降级,熔断等)
- mysql怎么优化慢查询语句?
- 首先根据explain命令,观察key(可能走的索引),keylen(实际用到的索引长度),extra字段(查看是否回表或全盘扫描)以确定瓶颈,然后分别执行对应的优化操作(例如添加索引、保证查询字段覆盖索引、避免使用*,注意隐式转换、多表连接要小表驱动大表等)
- 研究生阶段的成绩
- redis:假设A明星有两百万粉丝,B明星有三百万粉丝,如何快速去求出两个明星共同的粉丝?假设应用上限为一千万用户,使用bitmap思想,key为fans_{actorname},value为2^10*10^4的数组,每位0或1表示对应id的粉丝是否关注,然后两个actor的bitmap对应位执行”与”操作
- 追问:如果不用bitmap思想,考虑用什么其他的数据结构?可以用set,具体执行思路不清楚,可能执行效率和空间不如bitmap方案
- redis的持久化策略?RDB和AOF,两种方式各有优劣,一般配合使用
- 知识库项目使用了什么数据库?minIO(存用户分片的文件,然后调用对应的合并api执行合并操作) + elasticsearch(存储每个分块后语句对应的向量,后续执行检索) + mysql(存储用户信息表、文件上传记录表)
- 知识库支持哪些文件类型上传?文档类型基本都支持(txt , word, pdf等)图片不支持 后续考虑用图转文或者CLIP优化
- es存向量,具体用的是什么索引?用的dense_vector(这里不太了解)
- 追问,那你的这种方案不会造成查询很慢吗?确实会有性能瓶颈,当前方案主要是从企业定制化的角度去考虑,优点是可以实现细粒度操作(如权限过滤、混合检索等等,相应参数可自己调),缺点是相比成熟轮子框架(如langchain等)性能很慢,后续考虑对es这边优化(优化ann为hnfw,或直接替换es为faiss)
- 上传文件分片是如何分的?主流方案是固定分块+语义分块,从成本和实现难度上考虑选择第一种,并引入overlap策略保证分片重叠一定程度上缓解中间词截断的缺陷
- 所以目前做的还是一个小demo?对 设计最初是首先跑通整个链路,后续再针对不同需求进行相应优化
- 大模型这块有做过微调工作吗,就是SFT?没了解,只做过rag和prompt engineering
- 研究生阶段的成果?
- 闲聊,哪里人
- 反问:技术栈和业务,图书馆服务平台升级改造(2017 -至今 ,1800+用户)+ 高效教学产品(增强检索 ai相关产品开发 基于python 对开源产品的改造升级)
一周后意向 已拒










