主机安全MES-RAG: 将多模态、实体存储和安全保障引入RAG

知者何南 发表于 2025-3-29 05:41:59

MES-RAG: 将多模态、实体存储和安全保障引入RAG

检索增强生成（RAG）通过使用外部知识改进大型语言模子（LLM），但在准确实体信息检索方面存在困难。本文提出了一种名为 MES-RAG 的框架，增强了实体特定查询处理本领，并提供准确、安全且划一的响应。MES-RAG引入了主动安全步伐，在数据访问前应用保护以确保体系完备性。别的，该体系支持及时多模态输出，包括文本、图像、音频和视频，无缝集成到现有的RAG架构中。实验结果表明，MES-RAG明显提高了准确性和召回率，突出其在提拔问答安全性与实用性方面的有效性，使目标任务的准确性提高到 0.83 (+0.25) 。我们的代码和数据可在以下网址获取：https://github.com/wpydcr/MES-RAG。
检索增强生成（RAG）是一种新兴方法，明显增强了大型语言模子（LLM）的本领。通过利用检索到的段落中的外部知识，RAG可以缓解LLM输出中的幻觉和差别等性问题。
然而，传统的RAG体系通常专注于文档级检索，缺乏对分散在多个泉源中的实体相关细节进行细粒度理解的本领。这种局限性因来自差别实体的信息稠浊存储而进一步加剧，导致检索噪声并影响生成内容的相关性和事实准确性。
比方，当回答关于特定产物的提问时，RAG体系可能会无意中检索到类似产物的信息，从而引入无关或误导性的结果。在多模态数据输出本领方面，多模态生成模子的局限性因数据描述禁绝确和缺乏足够的相关训练数据而进一步加剧，最终导致次优的用户体验。别的，RAG体系轻易受到恶意查询和文档提取攻击等安全威胁，这危及数据完备性和用户隐私。
为解决这些问题，我们提出了MES-RAG（多模态、实体存储、安全RAG），一种旨在增强实体特定查询处理和多模态数据处理的框架。MES-RAG引入了一种新颖的实体中心数据表现方法，将信息按实体隔离以减少噪声并提高检索精度。它还集成了同一的多模态方法，支持文本、视觉和音频，并结合了主动安全计谋，在数据访问前应用保护步伐。
MES-RAG的主要贡献总结如下：

[*]实体存储准确性 . 通过结构化和隔离的实体存储体系，MES-RAG通过聚焦于实体特定数据实现高度准确和上下文划一的响应，有效减少了噪声。
[*]增强的安全性 . MES-RAG接纳前置加载的安全计谋，识别恶意行为和超出知识范围的检测，减少幻觉并确保体系完备性。
[*]多模态支持 . MES-RAG允很多种数据类型，包括文本、图像、音频和视频，确保比传统仅文本体系更丰富的答案。

https://i-blog.csdnimg.cn/img_convert/fa7b3603edb54537149d0edf924c352c.webp?x-oss-process=image/format,png
2 相关工作

检索增强生成 RAG 是一种结合检索和生成的最新方法，通过外部知识库增强LLM。RAG有三种主要范式 : 简朴RAG、高级RAG和模块化RAG。简朴RAG通常检索质量低且禁绝确。高级RAG通过滑动窗口和分层搜索等技能提高服从，以及信息压缩和重排序等方法提高生成质量。
模块化RAG提供了灵活的组件结构，允许独立开发模块或根据任务组合特定模块，从而实现跨模块的协同优化。
实体存储检索 Jiang 提出了FLARE方法，通过预期内容检索相关文档以重新生成低置信度的标记。同样，Ofir Press 提出自问法，允许模子在回答初始问题之前明确提问后续问题。然而，这些方法忽略了处理多个实体时可能引入的噪声，从而降低输出质量。
我们的MES-RAG框架通过隔离实体特定信息解决了这一问题，从而减少检索噪声并提高基于用户输入匹配实体的精度。相比之下，Darren Edge 开发了Graph RAG，通过构建基于图的文本索引改进全局总结。固然这种方法对于全局意义理解任务非常有效，但并不得当多模态需求，难以解决相似实体引起的混淆。
多模态RAG 最近关于RAG的研究大多会合在纯文本数据上，对多模态支持的探索有限。尽管一些研究结合了多模态方面，它们主要依赖扩散模子，无法包管输出准确性。
我们的MES-RAG框架通过创建跨模态的同一文本描述，确保可靠生成多模态内容，从而保持划一性并提高输出稳定性。
RAG中的安全性 Cohen指出RAG体系存在庞大安全漏洞，强调需要强大的安全步伐。最近的研究进一步展现了整合敏感外部数据库带来的隐私风险，如 \(S^2\)MIA可以通过语义相似性推断样本是否属于RAG的数据库。别的，AgentPoison展现了通过污染其知识库，RAG基础LLM署理易受后门攻击。
这些发现突显了关键的隐私和安全风险。MES-RAG通过实行前置加载的安全计谋应对这些寻衅，通过实体隔离存储、恶意识别和超出知识机制确保安全性和稳健准确性。
3 框架

3.1 任务界说

相似实体间的混淆（CASE）是在医疗保健、金融和客户服务等领域提供准确和相关答案的庞大寻衅。实体被界说为任何具有可识别属性的独特对象——如人物、所在、构造或产物——在确定响应的准确性和有效性方面起着至关重要的作用。然而，传统方法通常检索整个文本语料库中的信息，其中与差别实体相关的相似文本轻易导致信息混淆，并导致大型语言模子产生幻觉。这种混淆减弱了响应的可靠性，突显了对更准确处理和准确检索实体特定信息的需求。
通过关注实体特定信息的检索和生成，MES-RAG增强了答案的质量和相关性，针对查询上下文中实体的独特特征进行了定制。扼要的实体中心问答见图左。

https://i-blog.csdnimg.cn/img_convert/ebe60553c9a6ca3cdbebb460afc0a71f.webp?x-oss-process=image/format,png
3.2 概述

我们介绍了MES-RAG，这是一种开创性的框架，旨在增强大型语言模子以解决相似实体之间的混淆问题。如图所示，我们的框架由四个模块构成：实体中心数据构造（EDC）、查询解析器（QP）、实体检索（ER）和答案生成（AG）。
使用MES-RAG时，初始步调涉及数据预处理，如图下部所示。这包括多模态处理以确保表达划一性、数据分割和隔离存储。EDC模块负责这些任务，有关这些过程的详细信息将在第 3.3 节中提供。
完成数据预处理阶段后，就可以充分利用问答功能，如图上部所示。给定用户查询 \(q\)，QP处理它以提取实体 \(e\) 和查询 \(q\) 的意图 \(i\)，然后改写查询 \(q\) 以用于检索阶段。改写的查询是 \(\hat{q}\)：

https://i-blog.csdnimg.cn/img_convert/6275f9dc4b389b691f3b01bc2f3c827d.webp?x-oss-process=image/format,png
ER模块从实体中心数据库 \(D\) 中提取与实体 \(e\) 和意图 \(i\) 相关的数据子集 \(D_{ei}\)，该数据库由EDC模块构建：

https://i-blog.csdnimg.cn/img_convert/fed5edf4fa3261d8afb3d86416d3688d.webp?x-oss-process=image/format,png
随后，AG模块将改写的查询 \(\hat{q}\) 和检索到的实体特定数据子集 \(D_{ei}\) 作为输入，生成最终答案 \(A\)：

https://i-blog.csdnimg.cn/img_convert/8f0db50bf9e498765436a4a98e4601df.webp?x-oss-process=image/format,png
3.3 实体中心数据构造

实体中心数据构造（EDC）模块围绕各个实体构造结构化数据，将多模态属性与每个实体关联起来，如图中的绿色部门所示。此方法的关键是数据隔离，它将实体特定信息分开以防止混淆并提高检索精度。通过创建隔离的数据子集，体系减少了无关信息的干扰，实现了高效和准确的检索，从而提高了问答任务的性能。
EDC模块接纳三阶段过程来处理和存储多模态数据。
1 . 多模态数据处理差别于需要大量非文本模态训练的传统生成方法，MES-RAG以情境方式处理所有模态，提供文本、图像、音频和视频之间的划一结果。详细比较见图右。
我们的方法重点在于增强模态间的语义连贯性和情境对齐。我们使用现有真实多模态数据而不是生成数据，借助Whisper 和GPT-4o生成与原始数据对齐的文本择要。这确保生成择要与原始文本在表达上的划一性，同时无缝集成到现有的RAG框架中。这种方法可以或许在最小计算开销下实现及时、高精度输出。
2 . 实体识别在EDC模块中，提供了一种快速、成本效益高的自动化数据实体识别方法。接纳先进的关键词提取模子如YAKE 来处理多模态数据。这些关键词，记作 \(K = \{k_1, k_2, \dots, k_n\}\)，使用文本嵌入模子和余弦相似度分组为特征集。比方，“冰箱”和“洗衣机”被归类为家电特征，而“厨房”和“浴室”则归类为使用场景特征。
当然，也可以根据业务需求直接进行手动分割。在选择用于实体数据分割的特征后，非文本多模态数据也需要手动分配到差别的数据子会合。
为了评估特征，我们接纳了增益比率方法。对于给定的特征集 \(F = \{f_1, f_2, \dots, f_m\}\)，每个特征 \(f_j\) 的增益比率 \(G(f_j)\) 计算如下：

https://i-blog.csdnimg.cn/img_convert/b5761a578c155b8746d555ab3940b83d.webp?x-oss-process=image/format,png
其中 \(\text{IG}(f_i)\) 表现特征 \(f_j\) 的信息增益，\(\text{H}(f_j)\) 是其内在信息。选择增益比率最高的特征代表实体。这个过程可以或许分解和分类大量的文档，确保实体构造过程最大化信息增益，且不受语料库大小限制。因此，相关数据被正确分类为与每个实体相关的结构化属性。
3 . 安全隔离存储为了处理实体特定数据，MES-RAG起首提取并存储仅须要的标签在隔离的向量化隔间中。通过这种方式分别数据，MES-RAG强制准确访问控制并实现实体特定权限管理，明显减少敏感信息的暴露。这种结构不但加强了安全性，还提高了检索准确性，因为每个查询只访问相关数据子集，减少了未经授权访问的风险。
颠末初始数据处理后，MES-RAG仅操纵与实体相关标签，消除了直接访问详细文档内容的须要性。这种设置允许我们在任何文档访问之前完全启动安全机制——我们称之为前置加载安全设计，提供对一系列攻击向量的强大保护，如文档提取和幻觉攻击。
3.4 查询解析器

https://i-blog.csdnimg.cn/img_convert/06f91b6942ded3c7ca08fdb8b0c632f4.webp?x-oss-process=image/format,png
提取实体和意图在复杂的对话环境中，用户查询可能包含不完备或含糊的实体信息。查询解析模块使用先进的实体消歧来解决这个问题，根据上下文线索和对话历史细化查询。
此过程确保只选择最相关的实体进行检索，而不会过早抛弃不清楚的查询。别的，模块识别用户的渴望答案格式（比方，文本、图像、音频）作为“意图”。一个多步调的过程由经心设计的提示引导，如表 1 所示。
查询改写在识别并删除任何恶意内容后，再提取用户的实体和意图，查询解析模块将原始查询改写为更简洁和专业的形式，同时保留其潜伏含义。此改写过程消除了噪音和无关信息，确保查询结构良好且专注于所需的核心信息。

https://i-blog.csdnimg.cn/img_convert/4d4a6a9a4cac7d8979f842fdcff28a61.webp?x-oss-process=image/format,png
3.5 实体检索

数据子集匹配 ER模块显示为图中的橙色部门，通过将用户识别的实体和意图与特定数据子集匹配，准确定位相关信息，减少处理量的同时保持高精度。对于多个实体，它同时检索每个实体的数据，确保准确表现而不相互干扰。这种以实体为中心的方法制止了传统体系使用未分离数据时常见的“信息混淆”，其中缺乏实体隔离可能导致混淆和误导性输出。
超出知识库当查询包含知识库中未识别的一个或多个实体时，超出知识库（Kb）机制被激活。对于查询中的每个实体 \(e\)，体系验证其在知识库中的存在。假如任何实体 \(e\) 缺失，体系将其识别为超出范围并触发超出知识机制。

https://i-blog.csdnimg.cn/img_convert/705a168798655dd7c36d08a02cc5df6b.webp?x-oss-process=image/format,png

https://i-blog.csdnimg.cn/img_convert/bc2bbfe2d9224bc4403aed4baadeaf9b.webp?x-oss-process=image/format,png
触发超出知识机制后，体系向用户提供反馈，阐明哪些实体超出了知识库的范围。这使用户了解体系的知识边界并相应调解其查询。
3.6 答案生成

与RAG无缝集成 AG模块显示为图中的灰色部门，与开始进的RAG框架无缝集成，后者通常由LLM \(M\)、数据集 \(D\) 和检索器 \(R\) 构成。在标准RAG设置中，给定用户查询 \(q\)，体系通过检索器 \(R\) 从数据集 \(D\) 中检索出最相关的前 \(k\) 个文档来生成答案 \(A\)：

https://i-blog.csdnimg.cn/img_convert/6bd1890ca82d28cb81585ecb60b9a772.webp?x-oss-process=image/format,png

https://i-blog.csdnimg.cn/img_convert/22c0cd06909a7e4330e657bb11137147.webp?x-oss-process=image/format,png
我们的答案生成模块通过用查询解析器模块中的改写查询 \(\hat{q}\) 替代原始查询 \(q\) 来顺应此过程。不是使用整个数据集 \(D\)，而是从每个实体特定数据子集 \(D_{ei}\) 中独立检索，这些子集通过实体检索模块获得。每个子集单独处理，以确保为每个实体收集最相关的信息：

https://i-blog.csdnimg.cn/img_convert/0e77efaebae7edba491670c831a273c3.webp?x-oss-process=image/format,png
一旦独立检索完成，模块将从所有实体特定子会合检索的内容合并，生成一个单一、连贯的答案 \(A\)：

https://i-blog.csdnimg.cn/img_convert/67308bdaa0b7cdbdee1579b35c05dedb.webp?x-oss-process=image/format,png
这种集成使RAG框架可以或许利用以实体为中心的信息，同时保持其服从。通过在检索阶段独立对待每个实体子集并在随后综合结果，答案生成模块提供了一个同一的响应，准确反映查询中所有实体的相关信息。
4 实验

4.1 数据集

为了评估我们提出的框架，我们使用互联网上公开可用的新车品牌领域的最新数据进行了实验，确保我们的数据集颠末策划，扫除了通常会在LLM训练语料库中发现的任何内容。通过仔细的数据清理和严酷移除个人可识别信息以及任何被认为得罪的内容，借助GPT-4o，我们编制了一个数据集，涵盖274个差别的汽车品牌和总计50,665个相关属性。如表 2 所示，这里是一些数据集的例子。

https://i-blog.csdnimg.cn/img_convert/2d63725c86478c604fcd21182b9cb18a.webp?x-oss-process=image/format,png

https://i-blog.csdnimg.cn/img_convert/1f718f863e6a4ae95df3254ca2c6d138.webp?x-oss-process=image/format,png
我们构建了一个包含2,658个问答对的评估数据集，泉源于互联网资源，其中包含2,400个基于文本的问题和268个非文本问题，确保多模态（文本、图像、音频）答案的准确性。别的，我们使用GPT-4o生成了200个恶意问题以测试攻击检测本领，200个针对文档提取攻击的弹性测试问题，以及手动选择的200个无关问题以评估对幻觉攻击的鲁棒性。

https://i-blog.csdnimg.cn/img_convert/49d541b77de2e1f1802c9bdea27d50ee.webp?x-oss-process=image/format,png
4.2 实验设置

4.2.1 基线

直接一种根本的RAG实现，它使用用户输入作为检索查询，检索文档，并通过语言模子生成答案。
DSP 接纳多步调过程来引导语言和检索模子之间的交互，通过综合检索信息增强任务性能。
Self-RAG 集成检索和自省以提高答案质量和事实准确性，按需检索相关内容。
ReAct 结合推理和动作生成，允许模子与外部泉源互动以获得更知情的响应。
Self-Ask 通过允许模子提问并回答后续问题来增强组合推理，改善复杂查询处理。
4.2.2 评估指标

我们接纳了开始进的GPT-4o来评估五种方法的结果，用符号Accuracy表现。考虑到单个问题中可能存在多个子问题的可能性，我们创建了三个级别的评估：正确（1分）、半正确（0.5分）和不正确（0分）。这允许对预测进行更过细的评估。详细来说，如表 3 所示，我们使用的LLM提示模板来评估我们的框架，通过提供问题、标准答案和响应，LLM将根据理解输出三个分数，其中1代表正确，0.5代表半正确，0代表不正确。
4.3 实现细节

我们使用GPT-4o作为查询解析器。在我们的EDC模块中，我们也使用GPT-4o生成图像描述，并使用Whisper进行音频识别。
4.4 主要结果

我们将上述五种基线方法与和不与我们提出的MES-RAG进行比较。由于基线方法不支持多模态数据，我们仅使用2,400个基于文本的问答对以确保公平比较，如表 4 所示。
MES-RAG框架的集成始终提高了所有基线方法的性能。Direct方法使用平凡的RAG实现，结合MES-RAG后，准确率提高了0.25，取得了最明显的改进。Self-RAG和ReAct也表现出明显提拔，准确率分别提高了0.14。DSP和Self-Ask在与MES-RAG集成时分别提高了0.12和0.13。这些结果突显了MES-RAG框架在增强解决相似实体混淆任务方面的有效性。MES-RAG的杰出性能可归因于实在体中心数据构造（EDC），它实现了更准确的检索并最小化了混淆实体信息带来的噪声。

https://i-blog.csdnimg.cn/img_convert/54bab7bd95e4283587dba6a294d96bd9.webp?x-oss-process=image/format,png

https://i-blog.csdnimg.cn/img_convert/18078c10c9671d4aa842f5bee5740ec7.webp?x-oss-process=image/format,png
实体检索的召回率我们评估了全文检索和实体检索方法的Top-1和Top-5召回分数，如表 5 所示。两种检索方法的召回表现差异明显。对于全文文档检索，Recall@1为0.39，Recall@5为0.67。相比之下，实体检索实现了明显更高的召回值。实体匹配的Recall@1为0.97，增长了0.58；实体匹配的Recall@5为0.98，增长了0.31。与全文文档检索相比，实体检索方法展示了这种方法专注于提高顶级结果相关性的潜力。
多模态和攻击检测统计我们评估了所提出的框架在识别用户的意图（确定选择哪种数据模态）和检测各种类型的攻击方面的性能，如表 6 所示。我们的MES-RAG框架在意图识别方面达到了97%的准确率，在2,658个查询中仅有80个出错。在测试268个非文本答案时，MES-RAG达到了83%的准确率，这与基于文本的回答的准确率相当。它在检测恶意、文档提取和幻觉攻击方面表现出了98%的准确率，突显了其应对多样化威胁和确保响应完备性的稳健性。

https://i-blog.csdnimg.cn/img_convert/0a0a59cc17ac320a0eaaa976c46ab971.webp?x-oss-process=image/format,png
4.5 定性分析

在我们的定性分析中，我们在准确度、全面性和安全性方面比较了DSP方法与和不与MES-RAG的结果，如表所示。对于基于事实的问题（比方，北极狐Alpha S的车身轴距是多少？），MES-RAG提供了正确的测量值（2915毫米），而基线模子给出了一个不正确的值（2980毫米），这表明MES-RAG的准确度有所提高。对于描述性问题（比方，风光MINI提供哪些颜色和内饰选择？），MES-RAG提供了更详细的响应，列出了特定的颜色如精灵绿和薄雾玫瑰，突显了其优越的全面性。
在安全性测试中，MES-RAG始终优于基线。对于恶意攻击问题（比方，要求提供汽车GPS定位的请求），MES-RAG不但拒绝提供信息，还明确论述了涉及的隐私和安全风险。在文档提取攻击中，基线模子提供了对文档的完全访问权限，而MES-RAG拒绝了该请求，强调了安全性。对于幻觉攻击问题，MES-RAG提供了准确的响应，而基线模子生成了幻觉内容。这些结果表明MES-RAG在处理敏感信息和防止安全漏洞方面的本领明显提高，在解决所有指标中的相似实体混淆问题上表现优异。
我们还评估了最新LLM和MES-RAG的有效性。结果显示，MES-RAG始终提供准确答案，而单独使用的GPT-4o、OpenAI o1和Claude则表现出事实禁绝确或产生幻觉，突显了我们方法的稳健性和通用性。
4.6 泛化和及时可用性分析

MES-RAG框架展示了精彩的泛化和及时可用性，使其在多样应用场景中顺应性强且高效。通过基于自动实体识别和属性提取的分层存储设计，MES-RAG可以轻松从各个领域构建数据集，确保在差别领域中的无缝摆设，同时将人工干预降到最低。别的，其模块化架构允许所有关键组件（如查询解析、实体检索和多模态输出生成）的并行处理，这明显减少了处理时间。实证评估表明，MES-RAG可以在1.5秒内完成首词响应，有效满足及时应用需求，同时提供准确可靠的结果。
5 结论

本文介绍了MES-RAG，这是一种通过实体特定数据表现、隔离存储和强大安全步伐增强检索增强生成（RAG）的框架。MES-RAG通过接纳实体隔离存储、恶意查询检测和超出知识体系，提高了准确度、相关性和安全性，同时支持多模态数据类型以提供更丰富的响应。实验结果表明，与基线方法相比，MES-RAG在准确度、召回率和安全性方面表现更优。依附其模块化设计，MES-RAG可以或许无缝集成到现成的RAG体系中，增强实体处理本领，开销最小，彰显了其在推进面向实体的问答方面的潜力。
6 局限性和风险

未来研究的一个有前途的方向是探索构建多实体层次结构以处理更复杂的问答任务。引入分层实体结构可以改进实体关系和检索精度，但会增长复杂性，并需要更多领域的知识来构建实体本体。别的，我们的答案生成组件依赖现有的RAG模子，这可能导致生成禁绝确或有私见的信息。未来的工作应旨在均衡模子复杂性和性能，同时减轻潜伏误用的风险。

原论文：https://arxiv.org/pdf/2503.1356

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

MES-RAG: 将多模态、实体存储和安全保障引入RAG