HybridRAG:VectorRAG+GraphRAG在时序向量图谱数据库AbutionGraph中的一体
AbutionGraph-时序/向量/图谱数据库的一体化GraphRAG实现方案先容,利用图向量&向量图谱存储,可以轻松地保存向量和文本/摘要并自动完成合并更新,实现一键相似度检索知识库,简化HybridRAG(VectorRAG+GraphRAG)的实现,使其构建知识库更加高效轻便和降低LLM行业垂直应用落地门槛。https://i-blog.csdnimg.cn/direct/c4e3ac0b50c64e448e24237ff6659ad9.png
HybridRAG
HybridRAG (Hybrid Retrieval-Augmented Generation) 是一种最新结合了两种检索增强 (Retrieval-Augmented,前有VectorRAG-采用AI/向量数据库存算Embedding文本相似度,后有GraphRAG-采用KG/知识图谱数据库存查相关联内容) 和生成式 (Generation) 方法的自然语言处理技能。这种技能通常用于问答系统、对话系统或文档生成等领域,它创新结合检索式方法的信息准确性和生成式方法的流畅性和创造性。HybridRAG的实现可能涉及到复杂的算法和技能,包罗但不限于自然语言理解、呆板学习、知识表现和推理等。随着NLP领域的不断发展,HybridRAG有望成为提高语言模型性能的关键技能之一。本文将先容时序图谱数据库AbutionGraph实现HybridRAG的方案,可用于真实项目落地,而非先容一个方法论。
三种主流技能方案的实现对比:
1)VectorRAG(采用:向量数据库)
VectorRAG是一种利用向量数据库来存储文本的Embedding情势数据来支持生成任务的技能。它通过检索与输入查询相关的文本信息来改进NLP任务,特别是在需要生成有意义和连贯响应的情况下。
https://i-blog.csdnimg.cn/direct/09c10e52ae08443e92ec7281a0fe66d8.png
优势:
[*]VectorRAG可以或许确保大型语言模型(LLM)生成的响应与原始输入查询保持同等性和相关性。
题目:
[*]使用段落级分块技能,不得当文档的条理结构性质,可能导致关键上下文信息的丢失。
[*]从大型异构语料库中检索的上下文质量可能不同等,可能导致分析的禁绝确和不完备。
2)GraphRAG(采用:图谱数据库)
GraphRAG首先将文本转化为实体及其关系的三元组集合,再利用图谱数据库来将三元组集合存储以实现与输入相关元素的查询检索,是一种将非结构化数据结构化的方法。
https://i-blog.csdnimg.cn/direct/a371187c33284b8daa39f2c40741066f.png
优势:
[*]知识图谱提供了一种结构化的方式来表现和管理知识,有助于高效的查询和推理,已经在多个领域得到广泛应用。
题目:
[*]构建和维护一个高质量知识图谱,并将不同泉源的数据集成到一个连贯的知识图谱中是一个复杂且技能门槛较高的过程。
[*]通常在抽象的Q&A任务或提问中没有提到明确的实体时表现不佳。
3)HybridRAG(采用:向量数据库+图谱数据库)
HybridRAG通过结合VectorRAG和GraphRAG的特点,旨在提供一种更全面和强大的解决方案。它不仅利用向量数据库检索与查询相关的文本信息,还利用知识图谱来理解和推理文本中形貌的实体及其关系。
优势:
[*]信息准确性:通过检索式方法,HybridRAG可以或许提供准确的信息,确保生成的响应基于可靠的数据。
[*]流畅性和创造性:生成式方法的结合使得HybridRAG可以或许生成流畅、自然且具有创造性的文本。
[*]上下文理解:通过知识图谱,HybridRAG可以或许更好地理解文本的上下文和语义关系,从而生成更准确和相关的响应。
应用场景:
[*]问答系统:在问答系统中,HybridRAG可以提供更准确的答案,同时保持对话的自然流畅。
[*]对话系统:在对话系统中,HybridRAG可以生成更自然、更相关的回复,提高用户体验。
[*]文档生成:在文档生成中,HybridRAG可以利用检索到的信息和知识图谱的结构化数据来创建内容丰富、逻辑清晰的文档。
https://i-blog.csdnimg.cn/direct/9528f672873b4e46a2d454dccaf5d4b9.png
(向量数据库和图谱数据库独立的HybridRAG方案图)
尽管HybridRAG提高了LLM的生成结果,也会带来新的挑战:
[*]系统集成:将两种数据库技能有效地集成到一个系统中需要复杂的筹划和实现。
[*]实现定制:不同的业务场景对Graph(Schema)和Vector(原文/摘要)的情势要求存在差别,好比纯文本的数据和代码文本及结构数据文本的问答知识库面向场景不同,则需要个性化定制以确保引用质量。
[*]性能优化:需要优化系统以确保检索和生成过程的服从和响应速度。
[*]数据同等性:确保从不同泉源检索的数据在知识图谱中保持同等性和准确性是个挑战。
[*]全局问答/Global Search:架构上照旧Local Search 友好型,Global Search支持困难。
以上3中RAG技能是目前主流的解决方案,我们将使用AbutionGraph图数据库综合这些挑战及前两月开源的微软GraphRag的角度为您先容一个全新的/一体化的/落地门槛更低的HybridRAG解决方案。
4)HybridRAG(采用:向量图谱数据库)
AbutionGraph支持静态图谱、时序图谱、向量图谱3种存储方式,相比于向量数据库+图谱数据库的HybridRAG实现方式,我们只需采用AbutionGraph的向量图谱存储方式即可达到HybridRAG的结果,是一种更优化/落地难度/本钱更低的选择。实现上,我们可以像增加一个字段的方式轻松保存向量,运用时序图谱的特性,向量会自动完成合并并更新保存。根据向量保存在实体中的层级不同,可以实现比方图谱级、文档级、文本块级、实体级的向量存储,通常,我们使用文档级别即可实现简单高效(分布式)的存用。别的,根据构建图谱中层级的不同,同样可以生成不同粒度的摘要形貌,运用流式时序图谱的特性,摘要可以自动合并,或使用轻量级LLM作为聚合函数自动完成摘要更新,时候保持高质量的图谱信息。特别的,摘要(有文档摘要、文本块摘要、实体和关系的形貌)是向量检索中非常重要的数据,我们将摘要向量化后存到向量索引中,实现图谱摘要的含糊检索,在提问时即可一步获取摘要同时得到关联图谱。AbutionGraph具有数据直接Json化的能力,检索输出对接到Prompt即可供大语言模型使用,Pipeline一栈式的构建个性化GraphRAG应用。
https://i-blog.csdnimg.cn/direct/5d33dfddb7834afa8a885ff290269e6a.png
优势:
[*]继续Vector+Graph RAG的优势:能力更集中的向Graph靠拢,丰富知识库能力。
[*]架构轻便:一个数据库支持住一个系统,图谱化的过程也很轻便,把更多精神放在业务优化上。
[*]速度提升:图谱轻便-构建快速,整个过程全倚仗大模型的生成速度。
[*]查询简单:得益于向量和图谱的绑定,且是RDF+属性图的架构,相比于微软开源的GraphRAG,整个图谱变得很精炼,问答检索的GQL仅需要一条固定不变查询语句即可完成。
[*]信息准确:通过图向量的检索方法,一体化的HybridRAG可以或许提供准确的信息,确保生成的响应基于可靠的相关联的数据。
[*]实现定制:可针对不同的业务场景调整/优化数据的存取和快速/便捷的获取,比方结合结构化数据、算法指标数据(出度入读等)、时序数据(年月日维度)等筹划分析型业务。
[*]知识融合:不同标签的雷同实体通过AbutionGraph的预聚合能力可以实现新增属性、摘要、向量的自定义融合;
[*]全局问答:通过顶级节点的摘要信息可以快速得到全局性的答案,别的,我们在图谱中内置了收支读的及时盘算,可以更方便的去做Leiden社区划分;再有,我们有了摘要聚合的信息,也可以通过节点及其关系的聚合摘要来盘算相似度来得出文本相关的社区,这会是一种更轻便快速的方法;最后,通过AbutionGraph的技能特性,我们可以优化定制出更多针对特定场景的方案。
挑战:
[*]LLM工具化/函数化:随着轻量级/嵌入式LLM性能的提升,我们可以把其能力当作AbutionGraph数据库的一个聚合函数来使用,让动态知识图谱认知能力更强。
[*]实体消歧:我们将{实体名称,实体形貌}向量化,并采用AbutionGraph的流式聚合能力及时更新实体名称对应TopN个相似名称的字典,采用时序监控能力及时/定时监控大于1个相似名称的values,最后采用LLM重新尺度化实体名,并更新图谱的关联关系。
应用案例
1)文档类(烟草相关论文)问答系统
https://i-blog.csdnimg.cn/direct/5d66a3d2447d43e187559feaef647499.png
案例中可见,我们使用未经行业数据微调的通用大模型结合知识库举行内容生成,得到的知识图谱结构Schema、输出的答案与论文自己内容接近,通过AbutionUI界面可以直观的展示答案的相关依据,查看结果资助优化问答系统各个流程。
2)代码类智能生成更换
https://i-blog.csdnimg.cn/direct/ae6150d217cb4a28b8e2f2a627ff631f.png
这是我们正在实行中的项目,一期项目在两年前我们通过将Graph2Seq算法改写为Graph2Graph实现代码的智能转化生成,需要注入大量人工训练模型。有了大语言模型方案后,通过解析代码逻辑关系生成代码知识库,此中,将生成(第三方引用、类、函数、变量、配置、文件等)代码关联关系作为图谱知识库,将采用核心需要更换的部分代码块等作为向量知识库,再结合Abution的时序图谱特性举行版本控制、图盘算和子图模式匹配作为更换依据,完成代码的智能生成和自动更换,方案更高级有效、也淘汰了大量无技能含量的工作。
3)时序类数据日志故障题目搜索与自愈解答
https://i-blog.csdnimg.cn/direct/38d44bca079748fca1ec40aed928fc04.png
采用时序装备日志及时收罗及生产指标聚合技能,可以监控指标实现故障自动告警的同时,结合图谱中的时序精准检索和向量含糊检索可以有效实现装备日志的问答,并输出装备关联关系。
总结
https://i-blog.csdnimg.cn/direct/e56e43fbd08049b98ffa032b574c3a49.png
我们将AbutionGraph时序向量图谱数据库的HybridRAG实现方案与3种主流RAG技能方案举行了功能融合和对比,用于先容该种创新的一体化RAG技能实现方式:
1)VectorRAG:
优势:保持生成响应与输入查询的同等性和相关性。
题目:可能丢失关键上下文信息;检索上下文质量不同等。
2)GraphRAG:
优势:利用知识图谱举行高效的查询和推理。
题目:构建和维护高质量知识图谱复杂;在抽象Q&A任务中表现不佳。
3)HybridRAG:
优势:结合VectorRAG和GraphRAG,提供全面解决方案;信息准确性和流畅性;上下文理解。
题目:系统架构复杂,定制化开辟本钱高。
4)基于AbutionGraph数据库的HybridRAG实现方案:
AbutionGraph数据库通过向量图谱存储方式,继续了Vector+Graph RAG的优势,简化了HybridRAG的实现,提供了一种构建存储和查询检索更优化、本钱效益更高的选择。它支持静态图谱、时序图谱和向量图谱的存储,适用于需要高时效性和生成高质量响应的场景或通常一种数据库无法轻易完成的交织性场景。
时序向量图谱数据库AbutionGraph:官网&开辟文档, thutmose.cn
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]