【AI大模型】2025年这7种用于构建Agentic RAG体系的架构不可或缺 ...

南飓风  金牌会员 | 2025-2-13 20:47:03 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 876|帖子 876|积分 2628

媒介

2024年,随着 LLM 和 RAG 技能的发展,AI Agent 体系成为焦点。AI Agent 是可以大概在最小人工干预下举行复杂决策和任务执行的自主体系,这些体系通过增强生产力,重新定义了个人和构造解决问题的方式。
2025 年将是“Agent 之年”!今天,我们将探讨 Agentic RAG 体系的范例及其架构,并深入了解其运作机制。
Agentic RAG体系:RAG与AI Agent体系的联合
为了简朴理解 Agentic RAG,我们可以拆解这个术语:它是 RAG 与 AI Agent 的联合。
什么是 RAG?
RAG(Retrieval-Augmented Generation,检索增强天生)是一个框架,旨在通过将外部知识源集成到天生过程,来增强天生式 AI 模型的表现。其工作原理如下:


  • 检索(Retrieval):这一部门从外部知识库、数据库或其他数据存储库中获取相干信息。这些信息源可以包罗结构化或非结构化数据,如文档、API,乃至实时数据流。
  • 增强(Augmented):检索到的信息用于引导和支持天生模型。这确保了输出更准确,基于外部数据,而且上下文丰富。
  • 天生(Generation):天生式 AI 体系(如GPT)将检索到的知识与自身的推理能力联合,天生终极的输出。

RAG 在处置惩罚复杂查询或必要最新、特定范畴知识的任务中尤其有价值。
什么是AI Agent?
下面是 AI Agent 在回答查询“2024 年谁赢得了欧洲杯?告诉我更多细节!”时的工作流程:


  • 初始指令:用户输入查询,比方“2024 年谁赢得了欧洲杯?告诉我更多细节!”。
  • LLM处置惩罚与工具选择:LLM 剖析查询,判断是否必要外部工具(如网页搜索)。它启动相应的功能调用以获取更多信息。
  • 工具执行与上下文检索:选择的工具(比方搜索 API)检索相干信息,在这里,它获取关于 2024 年欧洲杯决赛的详细资料。
  • 响应天生:新信息与原始查询联合后,LLM 天生完整的终极回应:“西班牙以 2-1 战胜英格兰,在 2024 年 7 月的柏林决赛中赢得了欧洲杯。”

简而言之,Agentic AI 体系包含以下焦点组件:


  • LLM:操作的大脑
  1. LLM 作为中央处理单元,负责解析输入并生成有意义的响应。
复制代码


  • 输入查询:用户提供的问题或命令,启动 AI 的操作。
  • 理解查询:AI 分析输入内容,以理解其寄义和意图。
  • 响应天生:根据查询,AI 制定合适且连贯的回应。
  • 记忆体系:情境智能的关键
    记忆使 AI 可以大概保持并使用已往的交互,为更加符合情境的回应提供支持。
  • 短期记忆:生存最近的交互,便于即时使用。
  • 长期记忆:长期存储信息,供连续参考。
  • 语义记忆:保持一般知识和毕竟,支持信息化互动。
这些展示了 AI 怎样集成用户提示、工具输出和自然语言天生。
AI Agent 的定义
AI Agent 是自主的软件体系,计划用于通过与情况互动,执行特定任务或实现某些目标。AI Agent 的主要特征包罗:


  • 感知:它们感知或检索有关情况的数据(比方,通过 API 或用户输入)。
  • 推理:它们分析数据并做出有根据的决策,通常使用像 GPT 这样的 AI 模型举行自然语言理解。
  • 行动:它们在现实或假造天下中执行动作,如天生响应、触发工作流或修改体系。
  • 学习:高级 Agent 通常会根据反馈或新数据举行自我适应并提高其表现。
AI Agent 可以大概处置惩罚多个范畴的任务,如客户服务、数据分析、工作流自动化等。
总结
Agentic RAG 体系联合了 RAG 与自主 AI Agent 的能力。RAG 通过外部知识源增强天生模型的输出,而 AI Agent 则通过感知、推理、行动和学习,自主执行任务。这种组合使得 AI 体系不仅可以大概天生基于毕竟的回答,还能通过实时数据和情况交互,不断适应并提高效率,拓展了 AI 的应用场景,如客户服务和工作流自动化等范畴。
为什么我们应该关注Agentic RAG体系?
起首,以下是基本 RAG 技能的范围性:


  • 何时检索:体系大概难以判断何时必要举行检索,从而导致答案不完整或不够准确。
  • 文档质量:检索到的文档大概与用户的问题不匹配,进而削弱回答的相干性。
  • 天生错误:模型大概会“幻觉”出不准确或不相干的信息,而这些信息并未被检索内容支持。
  • 答案精度:即便有相干文档,天生的回答大概无法直接或充实回答用户的查询,使得输出结果不可靠。
  • 推理问题:体系无法处置惩罚复杂的查询,缺乏对细节的深入理解。
  • 适应性有限:传统体系无法动态调整计谋,比方选择API调用或网页搜索。
Agentic RAG 的紧张性
理解 Agentic RAG 体系,帮助我们为上述挑战和特定任务摆设合适的解决方案,并确保与预期使用场景的同等性。以下是其关键性原因:

  • 量身定制的解决方案
    不同范例的 Agentic RAG 体系针对不同级别的自主性和复杂性举行了计划。比方:


  • Agentic RAG 路由器:Agentic RAG 路由器是一个模块化框架,根据查询的意图和复杂性,动态地将任务路由到得当的检索、天生或执行组件。
  • 自我反思 RAG:自我反思 RAG 集成了内省机制,使体系可以大概通过迭代评估检索相干性、天生质量和决策准确性,来优化响应,直到输出终极结果。
了解这些范例有助于确保最佳的计划和资源使用。

  • 风险管理
    Agentic 体系涉及决策过程,这大概带来如错误行动、太过依赖或误用等风险。了解每种范例的范围和范围性,可以有用降低这些风险。
  • 创新与可扩展性
    区分不同范例的体系使得企业可以大概将其从基础实行扩展到可以大概应对企业级挑战的复杂代理。
简而言之,Agentic RAG 可以大概规划、适应和迭代,以找到得当用户需求的最佳解决方案。
总结
Agentic RAG 体系的上风在于其可以大概降服传统 RAG 技能的范围性,如检索时机、文档质量、天生错误等问题。通过理解不同范例的 Agentic RAG 体系(如 Agentic RAG 路由器和自我反思 RAG),我们可以大概根据详细任务需求摆设量身定制的解决方案。此类体系不仅可以大概处置惩罚复杂决策,还能帮助管理风险、推动创新与可扩展性,使得企业在面临复杂挑战时,可以大概更高效、更可靠地应对。
Agentic RAG:将RAG与AI Agent 相联合
联合 AI Agent 和 RAG 工作流,下面是 Agentic RAG 的架构:

Agentic RAG 将 RAG 的结构化检索和知识集成能力与 AI Agent 的自主性和适应性相联合。其工作原理如下:


  • 动态知识检索:配备 RAG 的 Agent 可以即时检索特定信息,确保其操作时使用的是最新且与上下文相干的数据。
  • 智能决策:Agent 处置惩罚检索到的数据,应用高级推理来天生解决方案、完成任务或深入准确地回答问题。
  • 面向任务的执行:与静态的 RAG 管道不同,Agentic RAG 体系可以大概执行多步骤任务,适应变化的目标,或根据反馈调整其方法。
  • 连续改进:通过学习,Agent 不断改进其检索计谋、推理能力和任务执行能力,随着时间的推移变得更加高效和有用。
Agentic RAG 的应用
以下是 Agentic RAG 的应用场景:


  • 客户支持:通过访问实时数据源,自动检索并提供准确的用户查询响应。
  • 内容创作:天生复杂范畴(如法律或医疗)中的上下文丰富的内容,依托于检索的知识。
  • 研究辅助:通过自主网络和综合来自广泛数据库的相干质料,帮助研究职员。
  • 工作流自动化:通过将基于检索的决策集成到企业流程中,简化企业运营。
Agentic RAG 代表了 RAG 与自主 AI Agent 之间的强大协同作用,使体系可以大概以无与伦比的智能、适应性和相干性举行操作。这是构建不仅仅是知情的,而且可以大概独立执行复杂、知识麋集型任务的 AI 体系的重大进展。
总结
Agentic RAG 通过联合 RAG 的检索能力与 AI Agent 的自主决策和适应性,开创了全新的工作模式。Agent 可以大概实时检索最新数据,并通过智能推理天生解决方案、执行任务或提供深度回答。与传统的静态 RAG 管道不同,Agentic RAG 可以大概执行复杂的多步骤任务,并通过反馈不断改进自己的执行计谋。它在客户支持、内容创作、研究辅助和工作流自动化等多个范畴具有广泛应用,并为构建高效、自主的 AI 体系铺平了道路。
我希望你如今已经对 Agentic RAG 有了清晰的了解,在下一部门中,我将向你介绍一些紧张且盛行的 Agentic RAG 体系及其架构。
Agentic RAG 路由器
正如前面提到的,"Agentic"一词意味着体系像智能代理一样,可以大概推理并决定使用哪些工具或方法来检索和处置惩罚数据。通过联合检索(比方数据库搜索、网络搜索、语义搜索)和天生(比方 LLM 处置惩罚),该体系确保以最有用的方式回答用户的查询。
雷同地,Agentic RAG 路由器是计划用来动态地将用户查询路由到合适的工具或数据源,从而增强 LLM 能力的体系。此类路由器的主要目的是将检索机制与 LLM 的天生能力相联合,以提供准确且具有上下文的响应。
这种方法弥合了 LLM(基于现有数据练习的静态知识)与必要从实时或特定范畴数据源动态检索知识之间的差距。通过联合检索和天生,Agentic RAG 路由器使得以下应用成为大概:


  • 问答
  • 数据分析
  • 实时信息检索
  • 推荐天生
Agentic RAG 路由器架构
下图展示了Agentic RAG 路由器怎样运作。我们来分析一下各个组件和流程:


  • 用户输入与查询处置惩罚


  • 用户输入:用户提交查询,这是体系的入口点。可以是问题、命令或请求特定数据。
  • 查询:用户输入被剖析并格式化成体系可以理解的查询。

  • 检索 Agent
    检索 Agent 是焦点处置惩罚单元,负责和谐怎样处置惩罚查询。它评估:


  • 查询的意图。
  • 必要的信息范例(结构化、非结构化、实时、推荐)。

  • 路由器
    路由器决定使用哪些工具来处置惩罚查询:


  • 向量搜索:使用语义嵌入检索相干文档或数据。
  • 网络搜索:访问实时信息。
  • 推荐体系:基于用户先前的互动或上下文相干性推荐内容。
  • 文本转 SQL:将自然语言查询转换为 SQL 命令来访问结构化数据库。

  • 工具
    这些工具是模块化且专业化的:


  • 向量搜索A和B:旨在通过语义嵌入搜索匹配内容,适用于非结构化数据如文档、PDF 或书籍。
  • 网络搜索:访问外部实时在线数据。
  • 推荐体系:使用 AI 模型提供用户特定的发起。

  • 数据源
    体系毗连到多种数据源:


  • 结构化数据库:用于存储构造良好的信息(比方 SQL 体系)。
  • 非结构化源:如 PDF、书籍、研究论文等。
  • 外部仓库:用于语义搜索、推荐和实时网络查询。

  • LLM 集成
  1. 检索到的数据被传递给 LLM:
复制代码


  • LLM 将检索到的信息与其天生能力联合,创建出连贯且易于理解的回应。

  • 输出
  1. 最终的响应被以清晰且可操作的格式返回给用户。
复制代码
Agentic RAG 路由器的范例
以下是 Agentic RAG 路由器的范例:

  • 单一 Agentic RAG 路由器

    在这种设置中,只有一个统一的 Agent 负责所有的路由、检索和决策任务。适用于只有单一查询范例的应用,比如检索特定文档或处置惩罚基于 SQL 的请求。
    在单一 Agentic RAG 路由器中:
  • 查询提交:用户提交查询,单一的检索代理处置惩罚该查询。
  • 通过单一 Agent 路由:检索 Agent 评估查询并将其通报给一个路由器,路由器决定使用哪些工具(比方向量搜索、网络搜索、文本转 SQL、推荐体系)。
  • 工具访问:路由器根据必要毗连查询到一个或多个工具。


  • 文本转 SQL:与 PostgreSQL 或 MySQL 等数据库交互以处置惩罚结构化查询。
  • 语义搜索:从 PDF、书籍或非结构化数据源中检索数据。
  • 网络搜索:获取实时在线信息。
  • 推荐体系:基于上下文或用户资料提供发起。

  • LLM 集成:检索到的数据被通报给 LLM,LLM 联合其天生能力天生响应。
  • 输出:将响应以清晰、可操作的格式返回给用户。
该方法得当于数据源和工具较少的简朴用例,结构集中且高效。

  • 多 Agentic RAG 路由器

    这种架构涉及多个 Agent,每个 Agent 处置惩罚特定范例的任务或查询。这种方法得当复杂体系,支持高查询量和多样化的数据源。
    在多 Agentic RAG 路由器中:
  • 查询提交:用户提交查询,初步由检索代理处置惩罚。
  • 分布式检索 Agent:体系采用多个检索 Agent,每个 Agent 专注于特定任务范例。比方:


  • 检索 Agent 1 大概处置惩罚基于 SQL 的查询。
  • 检索 Agent 2大概专注于语义搜索。
  • 检索 Agent 3大概优先处置惩罚推荐或网络搜索。

  • 单独的工具路由器:每个检索 Agent 将查询路由到其指定的工具,工具从共享池中选择(比方向量搜索、网络搜索等)。
  • 工具访问与数据检索:每个工具根据其检索 Agent 的需求访问相干数据源。
  • LLM集成与合成:所有检索到的数据都通报给 LLM,LLM 合成这些信息并天生连贯的响应。
  • 输出:终极的处置惩罚响应返回给用户。
总结
Agentic RAG 路由器将智能决策、强大的检索机制和 LLM 联合在一起,创建了一个多功能的查询响应体系。架构通过最佳方式将用户查询路由到得当的工具和数据源,确保响应的高相干性和准确性。无论是使用单一路由器还是多个路由器设置,计划都会根据体系的复杂性、可扩展性需求和应用要求举行优化。
查询规划型 Agentic RAG
查询规划型 Agentic RAG 是一种方法论,旨在通过使用多个可并行化的子查询跨多个数据源来高效地处置惩罚复杂查询。这种方法联合了智能查询分解、分布式处置惩罚和响应合成,提供准确且全面的结果。

以下是其焦点组件:

  • 用户输入与查询提交


  • 用户输入:用户将查询或请求提交给体系。
  • 输入的查询将被处置惩罚并通报到下游举行进一步处置惩罚。

  • 查询规划器是和谐整个过程的焦点组件。它:


  • 表明用户提供的查询。
  • 为下游组件天生得当的提示。
  • 决定调用哪些工具(查询引擎)来回答查询的详细部门。

  • 工具


  • 工具是包含查询引擎的专用管道(比方 RAG 管道),包罗:
  • 查询引擎 1
  • 查询引擎 2
  • 这些管道负责从外部知识源(比方数据库、文档或 API)检索相干信息或上下文。
  • 检索到的信息会返回给查询规划器举行整合。

  • LLM


  • LLM 作为复杂推理、自然语言理解和响应天生的合成引擎
  • 它与查询规划器举行双向交互:
  • 接收来自查询规划器的提示。
  • 根据检索到的信息提供上下文相干的响应或优化后的输出。

  • 合成与输出


  • 合成:体系将来自工具的检索信息和 LLM 的响应联合,天生连贯的答案或解决方案。
  • 输出:终极合成的结果以清晰的格式出现给用户。
关键亮点


  • 模块化计划:架构答应在工具选择和集成方面具有灵活性。
  • 高效的查询规划:查询规划器作为智能中介,优化哪些组件被使用以及使用的次序。
  • RAG:通过使用 RAG 管道,体系增强了 LLM 的知识,提供最新的、特定范畴的信息。
  • 迭代交互:查询规划器确保工具和 LLM 之间的迭代相助,渐渐改进响应。
总结
查询规划型 Agentic RAG 方法通过智能分解查询、分布式处置惩罚和响应合成,能有用处置惩罚复杂查询。这种方法不仅增强了 LLM 的能力,还提高了信息检索的精度和时效性,确保终极输出是综合且符合用户需求的答案。
自适应 RAG
自适应 RAG(Adaptive RAG)是一种通过根据传入查询的复杂度调整查询处置惩罚计谋,来提高 LLM 灵活性和效率的方法。
自适应 RAG 根据查询的复杂性动态选择回答问题的不同计谋——从简朴的单步骤方法到更复杂的多步骤方法,乃至在某些情况下不举行检索的过程。这一选择通过一个分类器来实现,该分类器分析查询的性子,并确定最佳的处置惩罚方法。

以下是单步骤、多步骤和自适应方法的比力:

  • 单步骤方法(Single-Step Approach)


  • 工作原理:对于简朴和复杂的查询,执行一次检索,并直接从检索到的文档中天生答案。
  • 范围性:
  • 对于像“Michael F. Phelps的生日是什么时候?”这样的简朴查询效果很好,但对于“Billy Giles出生地使用什么钱币?”这类复杂查询则效果差,因为缺乏中心推理。
  • 这种方法在复杂查询中会导致答案不准确。

  • 多步骤方法(Multi-Step Approach)


  • 工作原理:无论查询简朴还是复杂,都颠末多轮检索,渐渐天生中心答案以美满终极的回应。
  • 范围性:尽管强大,但对于简朴查询来说,它引入了不须要的计算开销。比方,反复处置惩罚“Michael F. Phelps的生日是什么时候?”是低效和冗余的。

  • 自适应方法(Adaptive Approach)


  • 工作原理:此方法使用分类器来确定查询的复杂性并选择合适的计谋:
  • 简朴查询:直接天生答案,无需检索(比方,“巴黎是哪个国家的首都?”)。
  • 寻常查询:使用单步骤检索过程。
  • 复杂查询:采用多步骤检索举行迭代推理和答案美满。
  • 上风:
  • 对于简朴查询减少不须要的开销,同时保证复杂查询的高准确度。
  • 灵活适应各种查询复杂性。

自适应RAG框架


  • 分类器角色
  • 一个较小的语言模型预测查询的复杂性。
  • 它通过自动标注的数据集举行练习,标签泉源于已往模型的输出和数据中的固有模式。
  • 动态计谋选择
  • 对于简朴或直接的查询,框架避免浪费计算资源。
  • 对于复杂查询,确保通过多轮检索举行充实的迭代推理。
以下是来自 LangGraph 的自适应 RAG 体系架构流程示例:


  • 查询分析
    该过程起首分析用户查询,以确定最合适的检索和天生路径。


  • 步骤1:路径确定
    查询根据与现有索引(数据库或向量存储)的相干性举行分类。
  • [与索引相干]:如果查询与已索引内容对齐,则将其路由到RAG模块举行检索和天生。
  • [与索引无关]:如果查询超出索引范围,则路由到Web搜索或其他外部知识源。

  • 步骤2:可选路径
    可以为更专业的场景添加额外路径,比方范畴特定工具或外部API。
  • RAG + 自我反思
    如果查询通过 RAG 模块举行处置惩罚,它将经历一个迭代的自我反思过程,以确保提供高质量和准确的回应。
  • 检索节点


  • 根据查询从索引数据库中检索文档。
  • 这些文档通报到下一阶段举行评估。

  • 评分节点


  • 评估检索到的文档的相干性。
  • 决策点:

  • 如果文档相干:继承天生答案。
  • 如果文档无关:重新编写查询以获得更好的检索,并返回到检索节点。
  • 天生节点


  • 基于相干文档天生响应。
  • 天生的响应进一步评估以确保准确性和相干性。

  • 自我反思步骤


  • 它回答了问题吗?
  • 如果是:过程结束,答案返回给用户。
  • 如果否:查询将举行另一次迭代,大概举行额外优化。
  • 幻觉检查
  • 如果发现幻觉(不准确或虚构的毕竟):重新编写查询,或触发额外检索举行修正。

  • 重新编写问题节点


  • 优化查询以获得更好的检索结果,并将其重新带入处置惩罚流程。
  • 这确保模型动态适应并处置惩罚边沿情况或不完整数据。

  • Web搜索处置惩罚无关查询
    如果在查询分析阶段,查询被认为与索引知识库无关:


  • 天生节点与 Web 搜索:体系直接举行 Web 搜索,并使用检索到的数据天生回应。
  • Web 搜索回应:天生的回答直接返回给用户。
总结
自适应 RAG 是一种智能且资源意识强的框架,通过使用定制化的查询计谋,提高了响应质量和计算效率。它可以大概根据查询的复杂性灵活调整计谋,确保对于简朴查询减少不须要的计算开销,同时保证复杂查询的高准确度。
Agentic Corrective RAG
Agentic Corrective RAG(主动型纠错RAG)

传统 RAG 存在的焦点问题包罗

  • 低质量的检索器:引入大量无关或误导性信息,阻碍模型获取准确知识,并增长天生过程中的幻觉风险。
  • 不加筛选的文档使用:很多 RAG 体系无差别地使用所有检索到的文档,无论其相干性怎样,导致错误或不须要数据的整合。
  • 低效的文档处置惩罚:当前 RAG 方法通常将完整文档作为知识泉源,即使大部门文本无关,也会稀释天生质量。
  • 依赖静态语料库:基于固定数据库的检索体系无法适应动态信息需求,提供的文档每每有限或次优。





CRAG(Corrective RAG,纠错RAG) 旨在通过引入自我纠错机制,改进文档使用效率,提高天生质量,解决上述问题。具有以下关键特性:

  • 检索评估器:轻量组件,用于评估检索到的文档对查询的相干性和可靠性,并分配置信度评分。
  • 触发动态行为:根据置信度评分触发不同检索行为(比方“正确”“含糊”“错误”)。
  • 联合网络搜索:补充和优化静态数据库检索的结果。
  • 分解-重组算法:选择性提取检索文档中的关键信息,抛弃无关部门,优化输入到天生器的数据。
  • 即插即用能力:可无缝集成至现有 RAG 体系,无需大规模修改。


纠错RAG的工作流程

**

**

  • 检索

    从向量数据库中使用输入查询检索上下文文档,初步网络大概相干的信息。
  • 相干性检查

    使用 LLM 评估检索文档的相干性,确保文档得当问题。
  • 验证相干性
  • 若所有文档相干:无需纠错,直接进入天生步骤。
  • 若存在含糊或错误文档:进入步骤4。
  • 查询重写和搜索

    若文档含糊或错误:
  • 基于LLM的反馈重写查询。
  • 执行网络搜索或更换检索以获取更新且准确的上下文信息。
  • 响应天生

    将优化后的查询和相干上下文文档(原始或纠正后)发送至LLM天生终极答案。


  • 正确的文档:直接使用检索文档天生答案。
  • 含糊的文档:联合原始和新上下文文档天生答案。
  • 错误的文档:使用纠正后的查询和新检索的文档天生答案。
此工作流程通过迭代纠错和优化,确保高精度响应。
主动型纠错RAG体系的工作流程
通过联合一些检查点,针对上下文缺失的查询执行网络搜索,体系的主要步骤如下:

1. 查询(Question)

用户输入的问题启动流程。

2. 检索节点(Retrieve Node)

体系从向量数据库中检索潜伏回答的上下文文档。

3. 评估节点(Grade Node)

由 LLM 评估文档的相干性:



  • 完全相干:进入天生答案的节点。
  • 部门无关:标记问题并重写查询。
评估后的分支场景


  • 天生答案节点:如果所有文档都相干,LLM 快速天生响应。
  • 重写查询节点:若结果有误,重写查询以改善检索。
  • 网络搜索节点:通过网络搜索获取额外上下文。
  • 天生答案节点:使用优化后的查询和新数据天生答案。


主动型纠错RAG架构


焦点步骤


  • 查询与初始检索:用户输入查询,体系从向量数据库检索上下文文档。
  • 文档评估:LLM 评估每个文档的相干性。


  • 完全相干:直接天生答案。
  • 存在无关文档:触发纠正步骤。

  • 查询重写:LLM 重写查询以优化网络检索。
  • 附加检索:网络搜索获取改进的上下文文档。
  • 响应天生:通过验证的上下文文档天生答案。


CRAG的作用


  • 错误修正:通过辨认无关文档并检索更好的上下文,迭代提高准确性。
  • 主动调整:根据LLM的评估,动态调整操作(如重写查询、执行网络搜索)。
  • 毕竟性保障:通过验证的上下文文档天生答案,降低幻觉或错误响应的风险。
总结
Agentic Corrective RAG 通过动态纠正和优化检索结果,有用提升了天生质量,同时最大限度减少了因无关或错误文档带来的误导。它为 RAG 体系的可靠性、灵活性和效率提供了一种创新性解决方案。
自反射 RAG
自反射 RAG(Self-reflective RAG)是自然语言处置惩罚(NLP)中的一种高级方法,将检索方法与天生模型联合,同时引入自我反思和逻辑推理机制。它通过对检索与天生过程中的低质量结果举行自我校正(如重写问题、剔除不相干或虚假的文档)来提高团体输出质量。
关键特性


  • 动态检索(按需适应性检索)
    不同于传统 RAG 固定检索文档的方式,自反射 RAG 基于天生过程动态决定是否必要检索,并调用“反思标记”作为信号举行判断。
  • 反思标记(Reflection Tokens)


  • 检索标记: 判断是否必要从外部获取更多信息。
  • 批驳标记: 自评天生内容的质量、相干性或完整性,确保天生结果符合引文泉源。

  • 质量保证
    LLM 使用批驳标记自评输出质量(如是否有支持性证据或天生片段的逻辑同等性),明显减少幻觉问题。
  • 灵活可控
    通过反思标记,模型能根据任务需求动态调整行为,既能处置惩罚需检索任务,也能独立天生无需检索的内容。
  • 性能提升
    动态检索与自我批驳的联合使自反射 RAG 在天生高质量、有证据支持的输出上优于传统 RAG 和标准 LLM。
自反射 RAG 的架构



焦点流程

  • 初始查询
    查询进入体系,模型评估是否必要检索外部信息。
  • 按需检索


  • 如果不必要检索,直接由 LLM 天生回答;
  • 若必要检索,体系调用知识库获取相干文档。

  • 文档评估与筛选
    检索到的文档会颠末相干性评估,无关文档被剔除,若须要会重新检索。
  • 天生与验证


  • LLM 根据相干文档天生初步回答。
  • 对天生的回答举行“幻觉检查”(验证答案是否符合上下文,避免不支持的内容)。

  • 自反思与迭代
    体系批驳性地评估回答质量,若不满足则重写查询或重新天生,直至输出准确答案。
  • 终极输出
    天生颠末验证的准确回答作为终极结果。


基本的 RAG 流程是通过检索的文档天生输出内容。高级 RAG 方法(比方路由)答应 LLM 根据查询选择不同的检索器。自反射 RAG 在此基础上增长了反馈循环机制,可以在必要时重新天生查询或重新检索文档。状态机非常得当这种迭代过程,它定义了步骤(比方检索、查询优化)和状态转换,使体系可以大概动态调整,比方在检索到的文档无关时重新查询。

传统 RAG 和自反射 RAG 的区别


  • 查询“美国各州名字的由来”:


  • 传统 RAG:
    检索大量文档(包罗大概无关的信息),天生混杂回答,容易出现逻辑错误或矛盾。
  • 自反射 RAG:
    按需检索与州名泉源相干文档,分段天生详细答案(如“得州定名的历史”“加州的名字泉源”),逐段验证并整合,确保回答准确。

  • 天生“描述一次暑假观光”:


  • 传统 RAG: 不须要地检索外部文档,浪费资源。
  • 自反射 RAG: 辨认任务无需检索,直接天生基于个人履历的回答。


总结

自反射 RAG 的上风在于动态决策能力、自我批驳机制和输出质量保证,其通过反思与迭代机制大幅提升了回答的准确性、相干性和逻辑性,特别适用于必要证据支持的复杂任务或对高质量天生内容有严格要求的场景。

Speculative RAG
Speculative RAG 是一种智能框架,旨在使 LLM 在回答问题时更快速且更准确。它通过以下两种语言模型的分工实现这一目标:


  • 一个小型的专用模型,快速起草潜伏答案。
  • 一个大型的通用模型,核查这些草稿并选择最佳答案。



为什么必要 Speculative RAG?

当你提出问题,尤其是必要精准或最新信息的问题(如“新款 iPhone 的最新功能是什么?”)时,常规的 LLM 通常存在以下问题:

  • 大概“幻觉”:模型大概会自信地给堕落误或虚构的答案。
  • 依赖过时知识:如果模型没有继承最新数据的练习,就无法提供最新毕竟。
  • 复杂推理耗时:如果必要处置惩罚大量信息(如长文档),模型大概响应缓慢。
这时 RAG 登场。RAG 从数据库或搜索引擎中检索实时相干文档,并使用这些文档天生答案。但问题在于,RAG 在处置惩罚大量数据时仍大概速度慢且资源消耗大。
Speculative RAG 通过增长以下专门分工解决了这个问题:

  • 一个专门负责起草的 RAG 模型(快速天生初步答案)。
  • 一个负责验证的通用 RAG 模型(确保终极答案准确)。


Speculative RAG 的工作原理

可以将 Speculative RAG 想象成一个两人团队解决难题的过程:
步骤 1:网络线索
“检索器”负责查找与问题相干的文档。比方,如果你问“谁在1980年的电影《朝九晚五》中扮演 Doralee Rhodes?”检索器会提取关于这部电影或音乐剧的文章。
步骤 2:起草答案(小型模型) 一个较小、速度更快的语言模型(专用起草者)基于这些文档工作:


  • 快速创建多个大概答案的草稿。
  • 为每个草稿提供推理依据(如说明“此答案基于此泉源”)。
这个模型雷同于快速绘制想法的初级侦探。


  • 草稿 1:“Dolly Parton 在1980年的电影《朝九晚五》中扮演了 Doralee Rhodes。”
  • 草稿 2:“Doralee Rhodes 是2010年音乐剧《朝九晚五》中的角色。”
步骤 3:验证最佳答案(大型模型) 一个较大、更强大的语言模型(通用验证者)随后介入,执行以下任务:


  • 检查每个草稿的准确性和相干性。
  • 根据置信度对草稿评分。
  • 选择最佳草稿作为终极答案。
  • 草稿 1 得到高分,因为它匹配了电影和问题。
  • 草稿 2 得到低分,因为它与音乐剧相干而非电影。
最后体系自信地输出:“Dolly Parton 在1980年的电影《朝九晚五》中扮演了 Doralee Rhodes。”
为什么这种方法聪明?


  • 更快的响应:较小的模型负责起草草稿,加速了速度。
  • 更准确的答案:较大的模型专注于检察草稿,确保高质量结果。
  • 高效资源使用:较大的模型不会浪费时间处置惩罚不须要的细节,只负责验证。


Speculative RAG 的主要长处


  • 平衡性能:小模型快速起草,大模型验证准确性。
  • 避免浪费精力:大模型只检查小模型发起的内容。
  • 实际应用场景:得当回答必要推理和实时、最新信息的复杂问题。
Speculative RAG 就像拥有一个聪明的助手(专用起草者)和一个细致的编辑(通用验证者),确保你的答案既快速又准确!




RAG 方法对比



  • 标准 RAG


  • 工作方式:从知识库中检索文档并直接将其融入通用语言模型的输入中。
  • 缺点:给通用语言模型增长了负担(必要同时理解文档并天生答案),无法区分相干和无关信息。

  • 自反射 RAG


  • 新增内容:通用语言模型学会分类检索文档是否相干,并根据这些分类调整自身。
  • 缺点:必要对通用语言模型举行额外的指令微调,效率大概较低。

  • CRAG


  • 新增内容:使用外部自然语言推理(NLI)模型将文档分类为“正确”、“含糊”或“错误”,再将它们融入通用语言模型的提示中。
  • 缺点:增长了一个额外的 NLI 步骤,降低了处置惩罚速度。

  • Speculative RAG


  • 关键创新:将任务分为两部门:
  • 一个专用 RAG 起草者(较小的模型)快速天生多个草稿及其推理依据。
  • 通用语言模型评估这些草稿并选择最佳答案。
  • 详细流程

  • 问题输入:体系接收必要知识麋集型的问题,并检索相干文档。
  • 并行起草:专用起草者对检索文档的子集并行工作,每个子集天生:


  • 草稿答案 (α)
  • 相干推理 (β)。

  • 验证和选择:通用语言模型评估所有草稿(α1、α2、α3)及其推理,并分配分数,选择最可信的草稿作为终极答案。
Speculative RAG 框架在速度和准确性之间实现了完美平衡:


  • 小型专用语言模型负责主要工作(基于检索的文档起草答案)。
  • 大型通用语言模型确保终极输出准确且有据可依。
这种方法通过减少耽误并保持开始进的准确性,优于之前的方法。
Self Route Agentic RAG
Self Route Agentic RAG 是一种 Agtentic RAG 体系的计划模式,此中 LLM 在处置惩罚查询时扮演了主动决策的角色。该方法依赖于 LLM 的自我反思能力,判断它是否可以大概根据提供的上下文天生准确的响应。如果模型判断无法天生可靠的答案,它会将查询路由到其他方法(如长上下文模型)举行进一步处置惩罚。此架构使用 LLM 的内部校准机制判断可答性,以优化性能和本钱。
该方法首次提出于论文《Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach》,联合了 RAG 与长上下文(LC),在保持与 LC 相当性能的同时实现了本钱效率。
Self Route 的关键组件:


  • LLM 决策:评估查询是否可以用提供的上下文回答。
  • 路由:如果查询可回答,立刻处置惩罚;否则,将其路由到具有更多或完整上下文的长上下文模型。
  • 效率与准确性:在避免不须要计算的同时,仅在必要时使用长上下文模型,实现了本钱效率和平衡性能。

1. 标准 RAG 流程

输入查询与上下文检索:



  • 用户提交查询。
  • 使用向量数据库检索相干的上下文文档,根据查询与预索引文档的匹配程度选取内容。
决策节点:



  • 长上下文 LLM(如 GPT-4o 或 Gemini)接收查询与上下文文档。
  • 使用 LLM 判断提示(Judge Prompt):
  • 判断上下文是否富足回答查询。
  • 决策结果:
  • 如果判断为可回答(ANSWERABLE),进入标准 RAG 提示流程。
  • 如果判断为不可回答(UNANSWERABLE),切换至长上下文 LLM 流程。
RAG 提示(针对可回答的查询):



  • 当上下文富足时,使用以下提示天生响应:
  • GPT-4o 模型处置惩罚 RAG 提示,根据提供的上下文天生答案。
  • 回答天生:


2. 长上下文 LLM 流程

触发条件:



  • 如果决策节点判断查询不可回答,进入长上下文 LLM 流程。
归并上下文文档:



  • LLM 判断提示辨认出上下文不足,因此通过归并操作将多个相干文档整合为单一的长上下文文档,以增强上下文连续性。
长上下文提示:



  • 使用归并后的文档作为输入,并天生以下提示:
  • GPT-4o 模型处置惩罚长上下文提示,根据丰富的上下文天生响应。
  • 回答天生:


关键特性与工作流程:


  • 动态决策


  • 架构动态评估上下文是否足以回答查询,确保体系能根据输入复杂度举行适应性调整。

  • 双层回答天生


  • 标准 RAG 流程:处置惩罚具有富足上下文的简朴查询。
  • 长上下文 LLM 流程:处置惩罚必要扩展或归并上下文的复杂查询。

  • 风雅化控制的提示


  • 在 RAG 提示和长上下文提示中参加明确指令,确保模型严格基于提供的上下文天生答案,避免产生幻觉。

  • 可扩展的向量数据库


  • 体系通过在决策前从向量数据库中检索相干上下文,高效扩展查询处置惩罚能力。


总结


  • 标准 RAG 流程:高效处置惩罚具有富足上下文的查询。
  • 长上下文 LLM 流程:通过归并多个文档构建连贯的长上下文,扩展了体系处置惩罚复杂查询的能力。
  • 经心计划的提示与决策节点:确保准确性、上下文依赖性以及对不同查询需求的适应性。
对澳大利亚劳动者的立法掩护
随着 RAG 范畴的不断发展,Agentic RAG 体系已经成为一项变革性创新,将传统的 RAG 工作流程与 AI Agent 的自主性和适应性相联合。这种融合使体系可以大概动态地检索相干知识,智能优化上下文,并以高精度执行多步骤任务。
从 Agentic RAG Routers 和 Self-Reflective RAG 到诸如 Speculative RAG 和 Self-Route RAG)这样的高级架构,每种方法都针对特定挑战(如无关检索、推理错误或计算效率低下)提出了解决方案。这些体系在提升准确性、适应性和可扩展性方面表现出了明显进步,应用范畴覆盖了客户支持、工作流自动化和研究辅助等多种场景。
通过将天生式 AI 与先辈的检索机制相联合,Agentic RAG 不仅提高了效率,还为未来的 AI 创新奠基了基础。随着我们迈向 2025 年,这些技能将重新定义我们使用数据、自动化工作流以及解决复杂问题的方式,使其成为企业和开发者不可或缺的工具组合。
最后的最后

感谢你们的阅读和喜好,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技能范畴中,连续学习和进步的紧张性。
为了帮助更多热爱技能、渴望发展的朋侪,我特别整理了一份涵盖大模型范畴的宝贵资料集。
这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战履历的总结。
这些学习资料不仅深入浅出,而且非常实用,让大家体系而高效地把握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们肯定能为你提供实质性的帮助。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋侪们如果必要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技能水平,开拓视野,把握焦点技能,提高解决问题的能力,同时也可以借鉴他人的履历。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有须要的。

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,而且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

640套AI大模型陈诉合集

这套包含640份陈诉的合集,涵盖了AI大模型的理论研究、技能实现、行业应用等多个方面。无论您是科研职员、工程师,还是对AI大模型感兴趣的爱好者,这套陈诉合集都将为您提供宝贵的信息和启示。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋侪们如果必要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

南飓风

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表