【2025版】一文讲清RAG与本地知识库、向量数据库、知识图谱的联系与区别 ...

打印 上一主题 下一主题

主题 1694|帖子 1694|积分 5082

RAG的本质是高效检索,而知识库,向量数据库和知识图谱只是组织数据的一种情势**”**
这两天在之前的一篇关于RAG检索增强的文章中有一个批评,问RAG和知识图谱的区别;这时才发现,原来很多人对RAG技术还没有一个本质的认识,以及与其相关的本地知识库,向量数据库等。
所以,今天就来介绍一下上面的这些概念,以及其联系与区别。
RAG——检索增强生成
前面写过好几篇关于RAG的文章,但大概到现在很多人还不明白什么是RAG——检索增强生成。
先说RAG技术产生的配景,RAG技术是基于大模型文本生成而产生的一种技术;目的是办理大模型的缺陷标题,因此就有了RAG技术来资助大模型,简朴来说RAG就相当于给大模型配备了一个资料库,碰到不懂的标题不要胡扯,先去查查资料。
大模型主要缺陷:
知识更新不及时:大模型的知识仅限于训练数据的停止时间,无法获取之后的知识
大模型幻觉标题:大模型一本正经的乱说八道,
大模型知识不敷:大模型的知识有限,很多垂直领域的知识它都不知道
RAG技术的运作流程是什么样的呢?

如上图所示,完备出现了RAG的运作流程;RAG技术主要分为三个部门:
1. 创建资料库
2. 查资料

  • 带着资料问标题
举个生活中的例子,你是一个门生,有一天碰到一个你不懂的标题;然后,你爸妈就让你去问邻人家上大学的哥哥姐姐;如果是一些常识性的标题,那么他们可以直接告诉你效果。
但你这个标题比较特殊,涉及到详细的专业知识,好比说化学,物理等;这时上大学的哥哥姐姐大概也不知道该怎么回答你的标题,但以他多年的学习经验,他觉得这个标题他可以办理,但需要先看一下你的讲义或资料。
这个步骤就是RAG中的第三步,你就是用户,大模型就是邻家的哥哥姐姐;而你比较聪明,在来的时间就怕哥哥姐姐需要看你的讲义,你随身就把讲义和资料给带着了;这个就是第二步。
然后,邻家的哥哥姐姐看了一会你的讲义,然后告诉你这个标题应该怎么巴拉巴拉的给你讲,然后你的标题就办理了。
现在回到RAG的标题,为什么需要这三步?
因为大模型上面的缺陷,所以导致大模型本领并不是很强,因此有些东西需要查资料才气知道;但怎么才给大模型建一个资料库呢?
这就是第一步,好比需要从差异的文档加载数据,如word,pdf,txt,音频,视频等;然后需要把这些文档中有关联的数据放到一块,这个就叫做嵌入(embedding),最后把这些数据存储到一个地方,好比向量数据库。
第二步就是检索,有了这些资料之后,怎么才气根据差异的标题,从中找到相关联的资料;好比,你不大概因为一个汗青标题就去翻阅整个永乐大典;所以这就需要一种检索技术,好比目录/索引。
接着是第三步,你带着第二步检索到的数据给到大模型,然后大模型就可以根据这些数据往返答你的标题;这时你大概会说,既然有了这些资料我自己看不就行了,还要大模型干什么;那如果你是公司客服,你会为每个用户都重新介绍一下你们公司的产物和企业文化吗?

而这就是整个RAG技术的实现流程,每个环节又涉及到差异的技术;好比第一步创建资料库,需要文档加载技术,分词技术,嵌入技术等;第二步需要向量化技术,正确高效的检索技术等;第三步需要提示词技术,大模型调用技术等,因为第二步查到的资料需要放到提示词中让大模型自己去“看”。
所以,从这里也可以看出,严酷来说RAG技术和大模型没太大直接关系(这里的没关系是指进行业务处理的大模型,而文档嵌入本质上使用的也是嵌入大模型);大模型不管你使用的是什么资料库,也不关心你查到了哪些资料,大模型关心的只是你最后在提示词中携带的资料。
大模型与本地知识,向量数据和知识图谱
那么,RAG和本地知识库,向量数据库,另有知识图谱有什么关系呢?
什么是本地知识库?
本地知识库说白了就是资料库的一种,好比说你们公司的技术档案,销售记录,公司的规章制度等都属于本地知识库的范围;本地知识库的作用是把一个组织内部的资料梳理出来方便大家使用。
所以,本地知识库的本质是资料库;而这个资料库可以有多种差异的组织情势,好比以文档,书籍,或者网页,视频,甚至是会议记录等情势存在,也大概是多种情势的混合。
而向量数据库是一种存储数据的方式,只不外由于大模型的出现,导致基于从前的字符存储变成了基于语义的向量存储;向量数据库从功能上来说和传统的数据库没有本质区别,不论是mysql,照旧redis;只不外传统的数据库是基于字符匹配,而向量数据库基于语义匹配(本质上一种数学模型,如欧式距离和余弦函数)。
向量数据库既然是数据库,那么它就具备数据库的特性,存储数据和查询数据;它是数据存储的载体,就雷同于工作中的文件夹。
而知识图谱又是什么?
所谓的知识图谱是由谷歌推出的一种搜索引擎技术,面临互联网中日益增长的数据,怎么体现这些数据,以及这些数据之间的关系成为了一个难题;因此,谷歌就推出了知识图谱技术,用这个方式去记录这些数据以及其关联关系。说白了知识图谱就是一种组织数据的方式,好比我们日常工作和生活中,会按照日期,所在,任务名称等来存放差异的文件,资料。

所以,本地知识库,向量数据库,另有知识图谱有什么关系?
本地知识库即可以使用简朴的日期,部门,工作任务来组织资料,也可以使用知识图谱这种更加专业的方式来搭建本地知识库;而搭建的本地知识库存储在什么地方?
即可以存储在传统的关系性数据库中,也可以存储在文本文件中,当然也可以存储在向量数据库中。
这就是其三者之间的关系。
那么它们和RAG又有什么关系?
前面说了,RAG是为了办理大模型本身存在的几个缺陷;大模型需要的是你在提示词中拼接的终极资料,而不会关心你这个资料从哪里来。而RAG就是从外部检索资料然后拼接到大模型提示词中的一种方法论。
RAG终极的目的就是正确,高效的检索到相关的资料;而不管是去知识图谱中检索,照旧去本地知识库中检索,照旧去处量数据库中检索,亦或者是从传统的关系型数据库中检索,或者直接去网络上搜索。
好比说,你想让大模型告诉你怎么做西红柿炒蛋,你需要的是使用RAG技术检索到做番茄炒蛋的内容,而不是告诉大模型哪里大米产量高,哪里发生了天然灾害,原子弹怎么造。
而至于你这个资料是从哪家餐厅的菜谱中找到的,照旧从网络上搜索到的,或者照旧路边听说的都可以。
标题,传统数据库可以用来做RAG吗?‍‍‍
答案是可以,好比说价格表这种精确的不需要语义检索的数据;使用传统数据库效果会更好。一般企业场景中是把语义检索和字符匹配同时使用,需要语义理解的就使用语义检索库,好比向量数据库;精确的数据就放到传统数据库中。‍‍‍
总结
RAG是一种从外部检索数据的方式;本地知识库相当于一个资料库;而知识图谱是组织数据的一种更加科学的方式;向量数据库是用来存储向量化数据的一个载体。
所以,本地知识库,向量数据库和知识图谱和RAG没什么直接关系,如果说有关系就是它们三者可以作为RAG技术的一种详细实现;但RAG也可以使用别的的实现方式。
RAG,本地知识库,向量数据库,知识图谱是四个完全独立的技术,它们之间没有任何直接关系,但又可以互相合作以到达某种效果。
  1. ## AI大模型学习福利
复制代码
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和本领了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
一、全套AGI大模型学习门路

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
二、640套AI大模型报告合集

这套包罗640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,照旧对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热门。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生本钱领,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
四、AI大模型贸易化落地方案


因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的康健发展贡献气力。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

八卦阵

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表