论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
数据库
›
图数据库
›
【2025版】一文讲清RAG与本地知识库、向量数据库、知识 ...
【2025版】一文讲清RAG与本地知识库、向量数据库、知识图谱的联系与区别 ...
八卦阵
论坛元老
|
2025-5-16 14:54:52
|
显示全部楼层
|
阅读模式
楼主
主题
1695
|
帖子
1695
|
积分
5085
“
RAG的本质是高效检索,而知识库,向量数据库和知识图谱只是组织数据的一种情势**”**
这两天在之前的一篇关于RAG检索增强的文章中有一个批评,问RAG和知识图谱的区别;这时才发现,原来很多人对RAG技术还没有一个本质的认识,以及与其相关的本地知识库,向量数据库等。
所以,今天就来介绍一下上面的这些概念,以及其联系与区别。
RAG——检索增强生成
前面写过好几篇关于RAG的文章,但大概到现在很多人还不明白什么是RAG——检索增强生成。
先说RAG技术产生的配景,RAG技术是基于大模型文本生成而产生的一种技术;目的是办理大模型的缺陷标题,因此就有了RAG技术来资助大模型,简朴来说RAG就相当于给大模型配备了一个资料库,碰到不懂的标题不要胡扯,先去查查资料。
大模型主要缺陷:
知识更新不及时:大模型的知识仅限于训练数据的停止时间,无法获取之后的知识
大模型幻觉标题:大模型一本正经的乱说八道,
大模型知识不敷:大模型的知识有限,很多垂直领域的知识它都不知道
RAG技术的运作流程是什么样的呢?
如上图所示,完备出现了RAG的运作流程;RAG技术主要分为三个部门:
1. 创建资料库
2. 查资料
带着资料问标题
举个生活中的例子,你是一个门生,有一天碰到一个你不懂的标题;然后,你爸妈就让你去问邻人家上大学的哥哥姐姐;如果是一些常识性的标题,那么他们可以直接告诉你效果。
但你这个标题比较特殊,涉及到详细的专业知识,好比说化学,物理等;这时上大学的哥哥姐姐大概也不知道该怎么回答你的标题,但以他多年的学习经验,他觉得这个标题他可以办理,但需要先看一下你的讲义或资料。
这个步骤就是RAG中的第三步,你就是用户,大模型就是邻家的哥哥姐姐;而你比较聪明,在来的时间就怕哥哥姐姐需要看你的讲义,你随身就把讲义和资料给带着了;这个就是第二步。
然后,邻家的哥哥姐姐看了一会你的讲义,然后告诉你这个标题应该怎么巴拉巴拉的给你讲,然后你的标题就办理了。
现在回到RAG的标题,为什么需要这三步?
因为大模型上面的缺陷,所以导致大模型本领并不是很强,因此有些东西需要查资料才气知道;但怎么才给大模型建一个资料库呢?
这就是第一步,好比需要从差异的文档加载数据,如word,pdf,txt,音频,视频等;然后需要把这些文档中有关联的数据放到一块,这个就叫做嵌入(embedding),最后把这些数据存储到一个地方,好比向量数据库。
第二步就是检索,有了这些资料之后,怎么才气根据差异的标题,从中找到相关联的资料;好比,你不大概因为一个汗青标题就去翻阅整个永乐大典;所以这就需要一种检索技术,好比目录/索引。
接着是第三步,你带着第二步检索到的数据给到大模型,然后大模型就可以根据这些数据往返答你的标题;这时你大概会说,既然有了这些资料我自己看不就行了,还要大模型干什么;那如果你是公司客服,你会为每个用户都重新介绍一下你们公司的产物和企业文化吗?
而这就是整个RAG技术的实现流程,每个环节又涉及到差异的技术;好比第一步创建资料库,需要文档加载技术,分词技术,嵌入技术等;第二步需要向量化技术,正确高效的检索技术等;第三步需要提示词技术,大模型调用技术等,因为第二步查到的资料需要放到提示词中让大模型自己去“看”。
所以,从这里也可以看出,严酷来说RAG技术和大模型没太大直接关系(这里的没关系是指进行业务处理的大模型,而文档嵌入本质上使用的也是嵌入大模型);大模型不管你使用的是什么资料库,也不关心你查到了哪些资料,大模型关心的只是你最后在提示词中携带的资料。
大模型与本地知识,向量数据和知识图谱
那么,RAG和本地知识库,向量数据库,另有知识图谱有什么关系呢?
什么是本地知识库?
本地知识库说白了就是资料库的一种,好比说你们公司的技术档案,销售记录,公司的规章制度等都属于本地知识库的范围;本地知识库的作用是把一个组织内部的资料梳理出来方便大家使用。
所以,本地知识库的本质是资料库;而这个资料库可以有多种差异的组织情势,好比以文档,书籍,或者网页,视频,甚至是会议记录等情势存在,也大概是多种情势的混合。
而向量数据库是一种存储数据的方式,只不外由于大模型的出现,导致基于从前的字符存储变成了基于语义的向量存储;向量数据库从功能上来说和传统的数据库没有本质区别,不论是mysql,照旧redis;只不外传统的数据库是基于字符匹配,而向量数据库基于语义匹配(本质上一种数学模型,如欧式距离和余弦函数)。
向量数据库既然是数据库,那么它就具备数据库的特性,存储数据和查询数据;它是数据存储的载体,就雷同于工作中的文件夹。
而知识图谱又是什么?
所谓的知识图谱是由谷歌推出的一种搜索引擎技术,面临互联网中日益增长的数据,怎么体现这些数据,以及这些数据之间的关系成为了一个难题;因此,谷歌就推出了知识图谱技术,用这个方式去记录这些数据以及其关联关系。说白了知识图谱就是一种组织数据的方式,好比我们日常工作和生活中,会按照日期,所在,任务名称等来存放差异的文件,资料。
所以,本地知识库,向量数据库,另有知识图谱有什么关系?
本地知识库即可以使用简朴的日期,部门,工作任务来组织资料,也可以使用知识图谱这种更加专业的方式来搭建本地知识库;而搭建的本地知识库存储在什么地方?
即可以存储在传统的关系性数据库中,也可以存储在文本文件中,当然也可以存储在向量数据库中。
这就是其三者之间的关系。
那么它们和RAG又有什么关系?
前面说了,RAG是为了办理大模型本身存在的几个缺陷;大模型需要的是你在提示词中拼接的终极资料,而不会关心你这个资料从哪里来。而RAG就是从外部检索资料然后拼接到大模型提示词中的一种方法论。
RAG终极的目的就是正确,高效的检索到相关的资料;而不管是去知识图谱中检索,照旧去本地知识库中检索,照旧去处量数据库中检索,亦或者是从传统的关系型数据库中检索,或者直接去网络上搜索。
好比说,你想让大模型告诉你怎么做西红柿炒蛋,你需要的是使用RAG技术检索到做番茄炒蛋的内容,而不是告诉大模型哪里大米产量高,哪里发生了天然灾害,原子弹怎么造。
而至于你这个资料是从哪家餐厅的菜谱中找到的,照旧从网络上搜索到的,或者照旧路边听说的都可以。
标题,传统数据库可以用来做RAG吗?
答案是可以,好比说价格表这种精确的不需要语义检索的数据;使用传统数据库效果会更好。一般企业场景中是把语义检索和字符匹配同时使用,需要语义理解的就使用语义检索库,好比向量数据库;精确的数据就放到传统数据库中。
总结
RAG是一种从外部检索数据的方式;本地知识库相当于一个资料库;而知识图谱是组织数据的一种更加科学的方式;向量数据库是用来存储向量化数据的一个载体。
所以,本地知识库,向量数据库和知识图谱和RAG没什么直接关系,如果说有关系就是它们三者可以作为RAG技术的一种详细实现;但RAG也可以使用别的的实现方式。
RAG,本地知识库,向量数据库,知识图谱是四个完全独立的技术,它们之间没有任何直接关系,但又可以互相合作以到达某种效果。
## AI大模型学习福利
复制代码
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和本领了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
一、全套AGI大模型学习门路
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
二、640套AI大模型报告合集
这套包罗640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,照旧对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热门。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生本钱领,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
四、AI大模型贸易化落地方案
因篇幅有限,仅展示部门资料,需要点击下方链接即可前往获取
2025最新版CSDN大礼包:《AGI大模型学习资源包》免费分享
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的康健发展贡献气力。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
八卦阵
论坛元老
这个人很懒什么都没写!
楼主热帖
不可思议但又无处不在的漏洞,WEB安全 ...
【历史上的今天】6 月 2 日:苹果推出 ...
C#实现HTTP访问类HttpHelper
开源共建 | Dinky 扩展批流统一数据集 ...
企业应用超融合架构的设计实例及超融合 ...
袋鼠云春季生长大会圆满落幕,带来数实 ...
Wireshark TS | 应用传输丢包题目 ...
大规模 IoT 边缘容器集群管理的几种架 ...
【软考】系统集成项目管理工程师(二) ...
重磅硬核 | 一文聊透对象在 JVM 中的内 ...
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
浏览过的版块
Oracle
程序人生
备份
向量数据库
快速回复
返回顶部
返回列表