RAG与当地知识库,向量数据库,以及知识图谱的联系与区别,看完这一篇你就懂了!!

[复制链接]
发表于 2025-4-17 09:41:01 | 显示全部楼层 |阅读模式
前言

RAG的本质是高效检索,而知识库,向量数据库知识图谱只是构造数据的一种情势
这两天有人问RAG和知识图谱的区别;这时才发现,原来许多人对RAG技能还没有一个本质的认识,以及与其相关的当地知识库,向量数据库等。
所以,今天就来介绍一下上面的这些概念,以及其联系与区别。
RAG——检索增强生成
前面写过好几篇关于RAG的文章,但可能到现在许多人还不明确什么是RAG——检索增强生成。
先说RAG技能产生的背景,RAG技能是基于大模型文本生成而产生的一种技能;目标是解决大模型的缺陷问题,因此就有了RAG技能来资助大模型,简朴来说RAG就相称于给大模型配备了一个资料库,碰到不懂的问题不要胡扯,先去查查资料。
大模型主要缺陷


  • 知识更新不及时:大模型的知识仅限于训练数据的截止时间,无法获取之后的知识
  • 大模型幻觉问题:大模型不苟言笑的乱说八道,
  • 大模型知识不足:大模型的知识有限,许多垂直领域的知识它都不知道
RAG技能的运作流程是什么样的呢?

如上图所示,完整出现了RAG的运作流程;RAG技能主要分为三个部分:

  • 创建资料库
  • 查资料
  • 带着资料问问题
举个生活中的例子,你是一个学生,有一天碰到一个你不懂的问题;然后,你爸妈就让你去问邻人家上大学的哥哥姐姐;如果是一些知识性的问题,那么他们可以直接告诉你效果。
但你这个问题比力特殊,涉及到详细的专业知识,比如说化学,物理等;这时上大学的哥哥姐姐可能也不知道该怎么回答你的问题,但以他多年的学习经验,他觉得这个问题他可以解决,但需要先看一下你的课本或资料。
这个步骤就是RAG中的第三步,你就是用户,大模型就是邻家的哥哥姐姐;而你比力智慧,在来的时候就怕哥哥姐姐需要看你的课本,你随身就把课本和资料给带着了;这个就是第二步。
然后,邻家的哥哥姐姐看了一会你的课本,然后告诉你这个问题应该怎么巴拉巴拉的给你讲,然后你的问题就解决了。
现在回到RAG的问题,为什么需要这三步?
因为大模型上面的缺陷,所以导致大模型能力并不是很强,因此有些东西需要查资料才气知道;但怎么才给大模型建一个资料库呢?
这就是第一步,比如需要从不同的文档加载数据,如word,pdf,txt,音频,视频等;然后需要把这些文档中有关联的数据放到一块,这个就叫做嵌入(embedding),末了把这些数据存储到一个地方,比如向量数据库
第二步就是检索,有了这些资料之后,怎么才气根据不同的问题,从中找到相关联的资料;比如,你不可能因为一个历史问题就去翻阅整个永乐大典;所以这就需要一种检索技能,比如目次/索引。
接着是第三步,你带着第二步检索到的数据给到大模型,然后大模型就可以根据这些数据来回答你的问题;这时你可能会说,既然有了这些资料我自己看不就行了,还要大模型干什么;那如果你是公司客服,你会为每个用户都重新介绍一下你们公司的产品和企业文化吗?

而这就是整个RAG技能的实现流程,每个环节又涉及到不同的技能;比如第一步创建资料库,需要文档加载技能,分词技能,嵌入技能等;第二步需要向量化技能,准确高效的检索技能等;第三步需要提示词技能,大模型调用技能等,因为第二步查到的资料需要放到提示词中让大模型自己去“看”。
所以,从这里也可以看出,严酷来说RAG技能和大模型没太大直接关系(这里的不要紧是指举行业务处置惩罚的大模型,而文档嵌入本质上使用的也是嵌入大模型);大模型不管你使用的是什么资料库,也不关心你查到了哪些资料,大模型关心的只是你末了在提示词中携带的资料。
大模型与当地知识,向量数据和知识图谱

那么,RAG和当地知识库,向量数据库,还有知识图谱有什么关系呢?
什么是当地知识库?

当地知识库说白了就是资料库的一种,比如说你们公司的技能档案,贩卖记载,公司的规章制度等都属于当地知识库的范围;当地知识库的作用是把一个构造内部的资料梳理出来方便大家使用。
所以,当地知识库的本质是资料库;而这个资料库可以有多种不同的构造情势,比如以文档,册本,或者网页,视频,甚至是集会记载等情势存在,也可能是多种情势的混淆。
而向量数据库是一种存储数据的方式,只不过由于大模型的出现,导致基于从前的字符存储变成了基于语义的向量存储;向量数据库从功能上来说和传统的数据库没有本质区别,岂论是mysql,还是redis;只不过传统的数据库是基于字符匹配,而向量数据库基于语义匹配(本质上一种数学模型,如欧式距离和余弦函数)。
向量数据库既然是数据库,那么它就具备数据库的特性,存储数据和查询数据;它是数据存储的载体,就类似于工作中的文件夹。
而知识图谱又是什么?

所谓的知识图谱是由谷歌推出的一种搜索引擎技能,面对互联网中日益增长的数据,怎么表示这些数据,以及这些数据之间的关系成为了一个难题;因此,谷歌就推出了知识图谱技能,用这个方式去记载这些数据以及其关联关系。说白了知识图谱就是一种构造数据的方式,比如我们一样平常工作和生活中,会按照日期,地点,任务名称等来存放不同的文件,资料。

所以,当地知识库,向量数据库,还有知识图谱有什么关系?
当地知识库即可以使用简朴的日期,部门,工作任务来构造资料,也可以使用知识图谱这种更加专业的方式来搭建当地知识库;而搭建的当地知识库存储在什么地方?
即可以存储在传统的关系性数据库中,也可以存储在文本文件中,当然也可以存储在向量数据库中。
这就是其三者之间的关系。
那么它们和RAG又有什么关系?

前面说了,RAG是为了解决大模型本身存在的几个缺陷;大模型需要的是你在提示词中拼接的终极资料,而不会关心你这个资料从哪里来。而RAG就是从外部检索资料然后拼接到大模型提示词中的一种方法论。
RAG终极的目标就是准确,高效的检索到相关的资料;而不管是去知识图谱中检索,还是去当地知识库中检索,还是去向量数据库中检索,亦或者是从传统的关系型数据库中检索,或者直接去网络上搜索。
比如说,你想让大模型告诉你怎么做西红柿炒蛋,你需要的是使用RAG技能检索到做番茄炒蛋的内容,而不是告诉大模型哪里大米产量高,哪里发生了自然灾难,原子弹怎么造。
而至于你这个资料是从哪家餐厅的菜谱中找到的,还是从网络上搜索到的,或者还是路边听说的都可以。
问题,传统数据库可以用来做RAG吗?‍‍‍
答案是可以,比如说代价表这种精确的不需要语义检索的数据;使用传统数据库效果会更好。一般企业场景中是把语义检索和字符匹配同时使用,需要语义理解的就使用语义检索库,比如向量数据库;精确的数据就放到传统数据库中。‍‍‍
总结

RAG是一种从外部检索数据的方式;当地知识库相称于一个资料库;而知识图谱是构造数据的一种更加科学的方式;向量数据库是用来存储向量化数据的一个载体。
所以,当地知识库,向量数据库和知识图谱和RAG没什么直接关系,如果说有关系就是它们三者可以作为RAG技能的一种详细实现;但RAG也可以使用其它的实现方式。
RAG,当地知识库,向量数据库,知识图谱是四个完全独立的技能,它们之间没有任何直接关系,但又可以相互互助以达到某种效果。
末了的末了

感谢你们的阅读和喜好,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技能领域中,持续学习和进步的重要性。
为了资助更多热爱技能、渴望发展的朋友,我特殊整理了一份涵盖大模型领域的宝贵资料集。
这些资料不仅是我多年积聚的心血结晶,也是我在行业一线实战经验的总结。
这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地把握AI大模型的各个知识点。如果你乐意花时间沉下心来学习,信赖它们一定能为你提供实质性的资助。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】
大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,包管自己学得较为全面。

经典册本阅读

阅读AI大模型经典册本可以资助读者进步技能水平,开拓视野,把握核心技能,进步解决问题的能力,同时也可以鉴戒他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典册本黑白常有必要的。

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才气将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

面试资料

我们学习AI大模型一定是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,而且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

640套AI大模型陈诉合集

这套包含640份陈诉的合集,涵盖了AI大模型的理论研究、技能实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感爱好的爱好者,这套陈诉合集都将为您提供宝贵的信息和启示。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表