超星南京速通 – Jie の Blog

本文最后更新于140 天前，其中的信息可能已经过时，如有错误请发送邮件到2750241635@qq.com

自我介绍：
转专业原因：
硕士期间主要的研究内容：
交通方向前沿性的研究：扯了ai
知识库是自己写的？实习项目的介绍
数据库项目介绍？
接触过springCloud吗？
如果让你做一个高可用、高性能的消息队列中间件，你的设计思路是什么？
- 生产者建立消息发送确认机制
- broker层实现消息持久化（使用replica副本思想），先写日志再传递消息防止消息丢失
- 消费者使用消费者组满足高性能大吞吐消耗固定topic
- 注册中心定期接收各个部件心跳操作，当某个节点挂了后及时感知并触发兜底措施（如服务降级，熔断等）
mysql怎么优化慢查询语句？
- 首先根据explain命令，观察key（可能走的索引），keylen（实际用到的索引长度），extra字段（查看是否回表或全盘扫描）以确定瓶颈，然后分别执行对应的优化操作（例如添加索引、保证查询字段覆盖索引、避免使用*，注意隐式转换、多表连接要小表驱动大表等）
研究生阶段的成绩
redis：假设A明星有两百万粉丝，B明星有三百万粉丝，如何快速去求出两个明星共同的粉丝？假设应用上限为一千万用户，使用bitmap思想，key为fans_{actorname},value为2^10*10^4的数组，每位0或1表示对应id的粉丝是否关注，然后两个actor的bitmap对应位执行”与”操作
追问：如果不用bitmap思想，考虑用什么其他的数据结构？可以用set，具体执行思路不清楚，可能执行效率和空间不如bitmap方案
redis的持久化策略？RDB和AOF，两种方式各有优劣，一般配合使用
知识库项目使用了什么数据库？minIO（存用户分片的文件，然后调用对应的合并api执行合并操作） + elasticsearch（存储每个分块后语句对应的向量，后续执行检索） + mysql（存储用户信息表、文件上传记录表）
知识库支持哪些文件类型上传？文档类型基本都支持（txt , word, pdf等）图片不支持后续考虑用图转文或者CLIP优化
es存向量，具体用的是什么索引？用的dense_vector（这里不太了解）
追问，那你的这种方案不会造成查询很慢吗？确实会有性能瓶颈，当前方案主要是从企业定制化的角度去考虑，优点是可以实现细粒度操作（如权限过滤、混合检索等等，相应参数可自己调），缺点是相比成熟轮子框架（如langchain等）性能很慢，后续考虑对es这边优化（优化ann为hnfw，或直接替换es为faiss）
上传文件分片是如何分的？主流方案是固定分块+语义分块，从成本和实现难度上考虑选择第一种，并引入overlap策略保证分片重叠一定程度上缓解中间词截断的缺陷
所以目前做的还是一个小demo？对设计最初是首先跑通整个链路，后续再针对不同需求进行相应优化
大模型这块有做过微调工作吗，就是SFT？没了解，只做过rag和prompt engineering
研究生阶段的成果？
闲聊，哪里人
反问：技术栈和业务，图书馆服务平台升级改造（2017 -至今，1800+用户）+ 高效教学产品（增强检索 ai相关产品开发基于python 对开源产品的改造升级）

一周后意向已拒

发送评论 编辑评论

推荐文章

发送评论编辑评论