论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
人工智能
›
人工智能
›
微软GraphRAG,开启智能检索新篇章
微软GraphRAG,开启智能检索新篇章
诗林
金牌会员
|
2024-8-20 04:22:45
|
显示全部楼层
|
阅读模式
楼主
主题
718
|
帖子
718
|
积分
2154
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
©作者|
YXFFF
来源|
神州问学
1. 引言
检索增强生成(RAG)是一种根据用户的查询语句搜索信息,并以搜索效果为 AI 参考从而生成答复。这项技术是多数基于 LLM 工具的告急组成部分,而多数的 RAG 都接纳向量相似性作为搜索的技术。在文档中复杂信息的分析时,GraphRAG 利用 LLM 生成的知识图谱大幅提升了问答的性能。
GraphRAG是一种基于图的检索增强生成方法,旨在通过将知识图谱或图形数据库与大型语言模子(LLMs)集成来提升传统RAG方法的性能。其开发理念重要在于利用图形数据库的结构化特性,将数据组织为节点和关系,从而更高效、准确地检索相关信息,并为生成相应提供更好的支持。GraphRAG的开发团队来自微软的研究部门,2024年7月2日开源后,在GitHub上迅速得到了大量关注,停止2024年7月17日,项目已经劳绩了11.3k颗星标。
2.向量数据库的根本原理与应用
向量数据库是一种创新性的数据库技术,以向量为根本数据范例,旨在处理和存储大规模向量数据。其核心原理是将数据表示为高维数值向量,并通过向量空间理论举行存储和查询。具体来说,向量数据库的工作原理包罗以下几个方面:
●数据向量化:这是向量数据库工作的出发点,涉及将非结构化数据(如文本、图像、音频)通过机器学习或深度学习模子转化为高维数值向量的过程。
● 向量索引:向量索引是将高维向量数据映射到低维空间的一种数据结构,它可以或许在保证查询效率的同时,大幅减少存储空间的占用。
●相似性搜索算法:向量数据库利用专门的相似性测量算法(如余弦相似度、欧氏距离等)来计算两个向量之间的相似度,并通过近似最近邻搜索(ANN)等算法快速找到最相似的向量。
随着人工智能和NLP领域的快速发展,嵌入向量作为紧凑的中间表示情势在多个应用中发挥告急作用。比方,Faiss库作为一种高效的向量数据库和搜索工具,为向量存储和搜索提供了强大支持,推动了NLP大模子的发展。此外,向量数据库在2024年被广泛应用于人脸识别、保举体系、图片搜索、视频指纹、语音处理、自然语言处理、文件搜索等领域,这些应用场景显示了其在处理大规模非结构化数据方面的优势。
大型预训练语言模子已经设立了新的基准,但在知识密集型任务中,传统的大型语言模子和向量数据库知识检索方式渐渐显现出局限性。面临这一挑战,检索增强生成模子(RAG)为语言生成和信息检索带来了厘革,逾越了传统的大语言模子和向量数据库知识检索方式。
向量数据库的核心在于利用向量表示数据,并利用向量之间的相似度来举行高效查询。在NLP任务中,文本被转换为高维空间的向量,每个维度都代表了一个特定的特征或语义信息。这些大模子可以或许从海量文本数据中学习语义和上下文信息,显著进步了NLP体系的性能和泛化能力。同时,随着图像、视频、无人驾驶等应用场景的不绝发展,数据体量已经从千万级逐步增长到百亿级别,对向量数据库离线导入、批量处理的能力提出了更高的要求。
3.GraphRAG技术概述
GraphRAG(基于图的检索增强生成)技术是在传统RAG(检索增强生成)方法的基础上进一步发展而来,旨在通过知识图谱和图机器学习技术来提升大语言模子(LLM)的能力。它利用从大型语言模子中提取的知识图谱,将非结构化的文本数据重新组织成结构化的知识图谱,其中节点表示实体(如人物、地点、概念),边表示实体之间的关系。
GraphRAG的工作流程可以分为以下几个重要步调:
● 知识图谱构建:从原始文本中提取知识图谱,这一步通常利用大型语言模子(如GPT-4 Turbo)生成的知识图谱。
● 信息提取与连接:利用信息提取技术推断和生成分块数据之间的连接,并利用知识索引来存储和检索这些数据。
● 图嵌入与相应推理:利用图神经网络(GNN)效果中的图嵌入,通过用户查询相应推理来增强文本嵌入。
● 生成图查询:利用生成模子(如Cypher生成模子)生成图查询,从而实现更准确的语义聚合和条理化分析
GraphRAG的创新之处在于它可以或许“连点成线”,即在答复问题时,它能跨越分散的信息片段,通过共享属性将它们串联起来,提供合成的新见解。此外,GraphRAG还优化了全局搜索和局部搜索两个应用场景,结合实体识别、实体关系抽取和社区聚类等算法,尽管存在毛病传播的问题,但整体效果优于传统的质朴RAG方法。
4.GraphRAG与向量数据库的结合
4.1. 数据表示与存储
GraphRAG通过图结构的方式表示数据,这种结构由节点(Vertex)和边(Edge)组成,每个节点可以代表一个实体或变乱,而边则表示节点之间的关系。这种表示方式使得GraphRAG可以或许有效地组织和管理复杂的数据关系,并且可以或许利用知识图谱技术增强搜索信息的深度和上下文。
另一方面,向量数据库则通过向量的情势存储这些数据。向量是由多个数值或特征组成的一维数组,用于表示实体的属性信息。向量数据库擅长处理非结构化数据,如图像和音频等,通过提供k-NN索引等专门索引来提供向量相似性搜索。这种处理能力使得向量数据库在处理大规模高维数据时具有优势。
4.2.检索与生成
在GraphRAG中,向量数据库用于快速检索出与查询相关的图节点或向量。通过Embedding模子服务实现文档的向量编码并写入向量数据库,在必要时利用相似查询来检索相关向量。然后,通过生成模子对这些信息举行整合和生成终极的答复。这种方法结合了图数据库的形态和向量数据库的高维向量处理能力,从而进步了检索的准确性和效率。
4.3. 多模态数据处理
GraphRAG与向量数据库的结合还可以支持多模态数据的处理,即同时处理文本、图像等多种范例的数据。通过将结构化的图数据和非结构化的文本向量搜索结合起来,可以或许充分利用两者的优势,实现更全面和精准的搜索效果。比方,在图像生成模子中,多模态信息融合技术可以资助更好地处理和生成复杂的信息。
GraphRAG与向量数据库的结合不但在数据表示与存储上提供了高效的解决方案,还在检索与生成以及多模态数据处理上展现了强大的能力,从而为用户提供更智能、更精准的服务。
5. 案例分析
智能问答体系
GraphRAG与向量数据库的结合在多模态数据上的应用,将GraphRAG技术和向量数据库结合取得了惊人的效果。通过构建结构化的领域知识库,并引入向量数据库加速语义检索,该方案不但使问题解决时间大幅缩短,还极大地提升了答案的相关性和准确性。
构建知识图谱只是智能问答的第一步,要实现实时、高效的信息检索,还必须引入向量数据库技术。这是 LinkedIn 方案的另一大亮点。
传统的关系型数据库难以应对海量节点间复杂的语义匹配,而向量数据库则是专为相似性搜索而生。LinkedIn 团队利用预训练语言模子,如 BERT、E5 等,将知识图谱中的节点文本映射为高维语义向量,然后将这些向量存入专门优化的向量数据库。
当用户提问时,体系同样将其转化为语义向量,并在数据库中举行高速匹配运算,快速找出与之语义最相似的知识节点。由于语义向量可以或许充分捕捉文本的语义信息,即便问题表述存在差异,也能轻松找到最相关的答案线索。
6.未来展望
GraphRAG与向量数据库的结合将进一步拓展其应用范围。未来,这种结合方式有望在更多垂直领域中发挥告急作用。
智能保举体系:GraphRAG结合向量数据库可以或许提升特定术语的理解度,从而使得大型语言模子(LLM)可以或许更准确地把握专业领域的知识,进而应用于智能保举体系等场景。比方,在交际媒体和保举体系中,GraphRAG可以通过结构化的图数据和非结构化的文本向量搜索,同时享受两者的优势,进步保举的准确性和用户体验。
增强检索与生成能力:GraphRAG利用图数据库的结构化特性,将数据组织为节点和关系,以更高效准确地检索相关信息,并为生成相应提供更好的上下文信息。这种方法不但进步了检索的准确性,还增强了生成任务的效果。
优化与演进方向:未来GraphRAG可能会进一步优化其计划模式,探索如何更好地兼容向量数据库和图数据库,以及如何在现实应用中提升性能和效率。此外,通过构建知识图谱时生成图社区摘要,解决总结性查询的问题,可以生成更高质量的上下文。
广泛应用领域:GraphRAG结合向量数据库的技术方案已经在多个垂直领域取得了显著效果,如敲诈检测、保举体系等。随着技术的不绝进步,预计未来这种结合方式将在更多垂直领域中发挥告急作用。
7.结语
我们可以看到GraphRAG与向量数据库结合的强大优势。这种技术不但可以或许有效地提取和利用图像数据中的关键信息,还可以或许通过知识图谱的辅助,为用户提供更加精准和高效的搜索效果。随着技术的不绝发展和应用,信赖GraphRAG及相关技术在未来的数据处理和检索领域将会发挥更大的作用。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
诗林
金牌会员
这个人很懒什么都没写!
楼主热帖
Windows安装mamba全流程(全网最稳定最 ...
【Linux】Ubuntu20.04解决网卡、显卡驱 ...
Adobe2024全家桶win及Mac系统安装包下 ...
Java软件架构师-25个关注点
24年首批!上海通管通报违规app涉及欧莱 ...
【Linux】网络设置(静态/动态/手动/nm ...
服务网格主动故障检测及流量切换方案 ...
【职场大揭秘】公司可以看到员工电脑在 ...
小步伐中Java背景调用getAccessToken接 ...
检测文本是否由AI生成,GPT、文心一言 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
Postrge-SQL技术社区
Oracle
物联网
.Net
Mysql
DevOps与敏捷开发
数据仓库与分析
SQL-Server
linux
Java
快速回复
返回顶部
返回列表