九天猎人 发表于 2024-8-20 20:19:32

字节面试官:什么是RRF,你能解释一下吗?

我是丁师兄,专注于智能驾驶方向大模型落地,公众号:丁师兄大模型。
大模型1v1学习,已帮助多名同学上岸国内外大厂
前字节员工跳槽,面了 40 多家才拿到一个 offer,照旧降薪 60%,大厂如此,更别提中小厂了。。。目前这种形势,最好的策略就是苟住本职工作,锻炼自身技能,同时发展副业,低落负债,度过经济下行期,主旋律就是活下去。

https://img-blog.csdnimg.cn/img_convert/c74e955ec187ba370e08512742373165.png
今天我们来聊聊 RRF(Reciprocal Rank Fusion),如果你简历上写了 RAG 的内容,一定要清楚以下 RRF 相关的题目。
想象一下这样一个场景,你正预备接受一场关于大模型中 RRF 的面试。面试官笑容满面地走进来,手里拿着你的简历,目光停留在“精通 RRF”这几个字上。你写的这个精通,可能是加分项,也可能是陷阱。
这时间,面试官可能就要开始炮轰你了!好比说,“老铁(niuma),既然你在简历里写着精通 RRF,那我可得好好考考(weinan)你。”
此时,你就得预备好接招,给出惊艳的回答。那么面试官到底会问些啥,面对这些题目阁下又该怎么应对呢?
01什么是RRF?

面试官一上来可能就会问你这个题目,这是个很底子但也很关键的题目。
你可以这样轻松应对,简单来说 RRF 是一种排名融合方法,重要用于将多个检索器的效果合并成一个统一的排名。
在 RAG(检索增强生成)系统中,这非常关键,由于不同的检索器可能会有不同的优势和不足,通过RRF可以联合它们的长处,提供更精准的效果。
具体来说,RRF 使用一个公式来计算每个文档的总得分:

https://img-blog.csdnimg.cn/img_convert/fc34b077447754ddad15133df47c5c61.png
这里,d 是文档,R 是检索器的聚集,k 是一个常数,通常取 60,r(d)是文档在某个检索器中的排名。
02为什么选择这个公式?它的优势是什么?

上面你无意间抛出了RRF的计算公式,这时面试官就会称热打铁继承追问,既然你选择这个公式,那请你详细给我讲讲选择这个公式的原因以及它的优势所在。
这时,你内心窃喜,接下来就为他好好说道说道,这个公式的妙处在于它使用了倒数排名(Reciprocal Rank),即:

https://img-blog.csdnimg.cn/img_convert/159ba1713209246ccb9e89d49fadd5df.png
这样,排名越高的文档贡献的得分越大,这有助于确保多个检索器共同认为重要的文档在最终排名中占据优先位置。
同时,随着排名的增加,贡献得分的增速会减缓,这意味着排名 1 和排名 2 之间的差异比排名 100 和 101 之间的差异更显著。
别的,常数 k 起到了平滑因子的作用,防止单个检索器对效果的主导性太强,还能更好地处理排名相近的文档。
03你提到的k=60是怎么来的?

既然提到了常数 k,面试官肯定不会就这么被你唬住,而是会对你施加更深层的拷问,你我给好好解释一下 k=60 的出处。
你固然不会被难倒,脱口而出回答到这个值重要是基于经验和实际效果的考量,k=60 在多种数据集和检索任务中表现良好,它在高排名和低排名项的影响之间提供了良好的均衡。
好比说,排名 1 时的得分是:

https://img-blog.csdnimg.cn/img_convert/6a17e6f087aafc89a32597b0545b89bc.png
排名 10 时是:

https://img-blog.csdnimg.cn/img_convert/f1e2095672aea09b19b7d2ff7f4dd9c4.png
排名 100 时是:

https://img-blog.csdnimg.cn/img_convert/0a2374a4616ca47507fac7f5968071a8.png
这帮助我们在高排名和低排名项之间找到一个均衡点,确保平局时能有用区分。
04RRF在RAG系统中的实际应用流程?

对于你自己熟悉的 RRF,在丝滑流畅的答完上面几个题目后,如今面试的节奏基本就握在了你手里。 最背面试官必定会问RRF 在 RAG 系统中的实际应用。
这个题目考察的就是你是否真的吃透了 RRF 在 RAG 中的应用原理。你可以轻微梳理一下思路,给出清楚准确的回答。
RRF 在 RAG 系统中的应用可以分为几个步骤:

[*] 用户输入查询,系统开始处理。
[*] 查询被发送到多个检索器,这些检索器可以是不同的检索模型,例如密集型、稀疏型大概混合型。
[*] 每个检索器生成自己的相关文档排名。
[*] 使用 RRF 公式将全部检索器的排名联合起来,计算每个文档的总得分。
[*] 根据 RRF 得分生成最终的统一排名。
[*] 末了,生成模型使用排名靠前的文档来生成最终的答案。
通过这样的流程,RRF 能有用地综合多个检索器的效果,提高 RAG 系统的团体性能和准确性。
在这场关于 RRF 在 RAG 系统中的面试中,如果你能清楚准确地回答上述题目,展现出踏实的知识储备和清楚的思路,那通过的概率就很大啦。要记着,如果不是底子知识,一样平常是不会扣分的。
有时间,公司要求“懂 RRF 技术”,可能是面试官的话术陷阱。但最忌讳的就是撒谎,猜中了或许没事,可猜不中,你觉得面试官会怎么想?以是,保持朴拙和专业,才华在面试中脱颖而出!
END
   我是丁师兄,专注于智能驾驶方向大模型落地,公众号:丁师兄大模型。
大模型1v1学习,已帮助多名同学上岸国内外大厂

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 字节面试官:什么是RRF,你能解释一下吗?