我的RAG好像有问题

打印 上一主题 下一主题

主题 914|帖子 914|积分 2742

检索加强天生(Retrieval-Augmented Generation, RAG)致力于通过从外部知识源检索上下文来提拔大型语言模子的体现,进而天生更加正确和可靠的答案,从而有效低落幻觉现象的发生。尽管该领域取得了一些进展,但评估这些体系仍旧面临一些关键挑战:


  • 数据多样性有限:知识库和查询类型的多样性不足,限制了RAG体系的广泛实用性;
  • 问题定位困难:RAG体系包罗切片、检索、排序、天生等一系列环节,当答案不及预期时,无法确切知道问题发生在链路的哪一环节,因此很难举行定向优化;
  • 检索评估标注量大:传统检索评估方案依靠对于正确doc(在RAG场景里是chunk)的标注,但当切片策略变化时对应doc集合也会变化,需要举行重新标注。
针对以上问题,阿里巴巴通义实验室RAG团队提出了一个全链路综合评估框架CoFE-RAG。此框架将RAG链路分别为切片,检索,排序,天生四个模块。通过使用CoFE-RAG举行评估,可以发现RAG体系在每个模块的正确率,找出体系瓶颈定向优化;别的针对单个badcase,也可以快速定位到问题发生的模块,举行针对性修复。CoFE-RAG还可以被用于生产链路,作为全链路模块监测方案,实现细粒度模块非常检测。
针对CoFE-RAG评估框架所需的标注数据,我们在Git中提供了一套自动数据生产方法,只需要上传原始的文档(PDF、Word、markdown、txt等),即可一键天生与CoFE-RAG配套的评估数据。
此外,基于自动化数据生产方法共同人工质检,我们也发布了一份多样化数据场景的综合基准数据集,旨在全方位评估RAG体系的各个阶段。该数据集配备了涵盖广泛文档形式的知识库,覆盖多个领域,多种文档格式,以及丰富的查询类型,包罗事实性、分析性、比力性和教程性查询。
实验结果表明,现有的检索模子在处理事实性查询方面体现优异,但在分析性、比力性和教程性查询方面体现不佳。此外,现有的大型语言模子在使用检索到的上下文天生更正确和可靠的响应方面也面临挑战。CoFE-RAG实现了对RAG体系的全链路评估,提供了优化RAG体系各阶段的关键思路。
文章链接:https://arxiv.org/abs/2410.12248
项目链接:https://github.com/Alibaba-NLP/CoFE-RAG

(1) CoFE-RAG可以处理多种类型的文件以及复杂Query;
(2) CoFE-RAG可以实现对RAG全链路评估;
(3) CoFE-RAG采用多粒度关键词评估切片,检索和排序阶段,而不依靠chunk标注。
方法

我们的方法可以分别为数据构造和评估框架两部门
数据构造


1. 文档网络

从多个开源网站搜集了各种格式的文档,涵盖了PDF、DOC、PPT和XLSX等类型。这些文档涉猎广泛,涉及金融、技术、医疗、商业和互联网等多个行业,内容丰富,包罗行业报告、手册和统计数据。尤其值得一提的是,这些文档大多数都是近年来创建的,其中有相当部门是2024年的,这超出了许多现有大型语言模子的知识截止范围,从而为评估RAG体系提供了丰富且时效的信息源。
2. 样本标注

多类型查询:定义了四种类型的查询:事实性、分析性、比力性和教程性查询。每种查询类型的定义如下表所示。

我们经心计划了包罗任务指令、示例和文档片断的Prompt。对于每个文档片断,我们使用GPT-4天生四种不同类型的查询。假如无法天生符合要求的某种查询类型,对应输出将为“无法天生”。天生的查询必须满意三个标准:清楚正确、符合查询类型定义、可以或许从文档片断中推断出来。然后,我们聘请标注人员评估每个查询的可继承性,只有完全符合标准的查询才被继承。
多粒度关键词:为了解决依靠切片评估检索性能的问题,我们创新性地为每个查询标注了多粒度关键词。这些关键词包罗粗粒度和细粒度关键词。粗粒度关键词是从查询和片断中提取的最具代表性和相关性的词语,通常由一个或几个词构成;而细粒度关键词则被定义为一组列表,每个列表依次对应为解决当前查询从目的片断中总结的信息点,列表的元素为对应信息点的子句或文本片断。我们计划了包罗任务指令、示例、查询和文档片断的Prompt并使用GPT-4天生这些关键词。天生的关键词颠末标注人员评估,只有符合要求的关键词才被继承。
此外,我们还以类似的方式天生参考答案,以便正确评估RAG体系的回答效果。
3. 数据统计

颠末三个天生步调,每个样本包罗查询、粗粒度关键词、细粒度关键词和参考答案。这些天生的数据历经严酷的人工审核,以确保其质量。在合成的查询中,92.2%的查询被人工标注人员继承;在合成的多粒度关键词中,87.3%的关键词被人工标注人员继承;在天生的参考答案中,74.8%的答案被人工标注人员继承。总体继承率为60.2%。查询类型的分布和知识库中各文件类型的统计信息如下表所示:


评估框架


1. 切片,检索和排序评估

CoFE-RAG框架旨在基于多粒度关键词而非chunk来评估切片、检索和排序的质量。对于得到的前K个chunk,我们将粗粒度关键词作为宽松约束,过滤掉不包罗任何粗粒度关键词的结果。这一步确保了只有上下文相关的chunk被思量用于进一步评估。过滤后,我们将剩余chunk组合起来,并使用细粒度关键词的召回率和正确率两个指标来评估检索结果。
2. 天生评估

我们使用多种指标来评估天生响应的质量,包罗BLEU、Rouge-L、老实度、相关性和正确性。其中,老实度、相关性和正确性由LlamaIndex的内置评估器盘算,该评估器使用GPT-4通过上下文学习自动评估。
实验

我们采用不同的方法分别对检索,排序,天生,切片阶段的效果举行评估。
检索


不同向量模子的实验结果如表所示。我们观察到,bge-large模子在召回率和正确率方面优于其他模子,无论是在全部类型的查询还是总体体现上。这表明该模子在捕捉查询与其上下文之间的语义关系方面具有较强的本领。在全部向量模子中,事实性查询的体现普遍优于分析性、比力性和教程性查询。这大概是由于事实性查询的相关上下文通常包罗在单个块中,使得检索更为容易。相比之下,其他类型的查询更为复杂,其相关上下文大概分布在多个块中,使得检索更具挑战性。
排序

我们对初始检索结果举行重新排序,并选择排名前4的块来评估重排序的性能。不同排序模子的实验结果如表所示。我们观察到,bge-reranker-large性能最佳。此外,使用重排序后的结果比使用全部检索结果的效果差。这表明当前的重新排序方法仍旧体现不佳,大概会遗漏一些相关的块。在检索和重排序阶段之后,事实性查询的体现仍旧优于其他三种查询,这进一步证明白我们的分析。
天生

不同LLMs的天生性能如表所示。我们观察到,GPT-4在各种LLMs中取得了最佳结果,显著优于其他模子。具有较大参数的模子,如GPT-4和Claude-3,通常比参数较小的模子,如Qwen-7B、Llama-7B体现更好。这大概是由于参数较大的模子具有更强的推理和泛化本领,淘汰了幻觉的风险,并可以或许处理更复杂的任务。在Qwen2-7B、Llama2-7B和ChatGLM-6B中,Qwen2-7B体现最佳,展示了其在RAG体系中天生正确和可靠答案的本领。

我们可以观察到,事实性查询的性能通常优于其他查询类型。这一观察结果突显了分析性、比力性和教程性查询的复杂性和挑战性,建议需要进一步努力以提高在这些更复杂查询类型上的体现。
切片

不同块巨细的性能如图所示。我们可以观察到,使用512巨细的块可以实现更好的检索、重新排序和天生性能。这表明较大的块更有效地保留了文档的原始信息,从而有助于体系处理复杂查询的本领。
总结

在本文中,我们提出了CoFE-RAG框架,以对整个RAG链路举行全面评估。我们引入了多粒度关键词来评估检索到的上下文,而不是依靠于chunk的标注,这种方法可以有效评估分块、检索和排序的性能,特别是在分块策略发生变化时。此外,我们发布了一个全面的基准数据集,针对多样的数据场景,涵盖了广泛的文档格式和查询类型。实验结果表明,尽管已经取得了显著进展,当前的方法在处理复杂查询类型和多样化知识库方面仍有很大的改进空间。

怎样学习AI大模子?

作为一名热心肠的互联网老兵,我决定把名贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和本领了 。我已将紧张的AI大模子资料包罗AI大模子入门学习头脑导图、佳构AI大模子学习册本手册、视频教程、实战学习等录播视频免费分享出来。
这份完备版的大模子 AI 学习资料已经上传CSDN,朋友们假如需要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】
一、全套AGI大模子学习门路

AI大模子期间的学习之旅:从基础到前沿,把握人工智能的焦点技能!

二、640套AI大模子报告合集

这套包罗640份报告的合集,涵盖了AI大模子的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模子感兴趣的爱好者,这套报告合集都将为您提供名贵的信息和启示。

三、AI大模子经典PDF籍

随着人工智能技术的飞速发展,AI大模子已经成为了当今科技领域的一大热点。这些大型预练习模子,如GPT-3、BERT、XLNet等,以其强盛的语言明白和天生本领,正在改变我们对人工智能的认识。 那以下这些PDF籍就黑白常不错的学习资源。

四、AI大模子商业化落地方案


作为普通人,入局大模子期间需要连续学习和实践,不停提高自己的技能和认知程度,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献气力。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

慢吞云雾缓吐愁

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表