f Mysql-AI | 大模型入门:RAG​数据库 - Powered by qidao123.com技术社区

AI | 大模型入门:RAG​数据库

打印 上一主题 下一主题

主题 2181|帖子 2181|积分 6553

大模型的知识紧张是在预练习阶段学习的,更新大模型的固化知识是非常困难的,需要通过特定命据集的微调再练习实现。通过RAG实现私有知识库与私有化摆设大模型相融合,就变得容易得多,但需要根据私有知识库的数据结构特点举行选型。”

信赖许多政企单位都已尝鲜摆设了私有大模型问答体系,而且基本思绪是一致的,即本地摆设大模型如DeepSeek 32B或70B+私有知识库+前端智能问答体系。前文先容了[RAG(检索增强生成)技术],它可以不依靠于大模型的预练习大概再练习即可实现知识私有定制化,这是私有化大模型摆设举行内容定制化开发的成本最低效果最好的方式。本文将陈述RAG的常用实现方式,以及他们各自的优缺点及利用场景。
为什么需要RAGRAG是基于外挂知识库建立的,具有可实时更新、确定性输出、隐私性好等特点,可以办理大模型利用过程中碰到的以下问题:一、大模型的知识更新问题大模型的知识源于预练习,将大量的知识压缩到参数之中,练习完成之后大模型的所掌握的知识也就固定稳定了。然而随着时间的推移,人们在应用过程中,需要大模型不断”学习“新知识。这就需要一种便捷、便宜的方式让大模型不断”掌握“新知识。在利用RAG体系之后,可以随时更新外挂私有数据库,实现知识的实时更新。二、大模型的生成结果的不可表明性问题大模型表现出了不可思议的“意识”本领,而且出现了不可表明的“涌现”现象(当数据量和参数超过阈值,如千亿级,模型会突然具备小模型没有的本领),但其本质仍是模仿人类语言的“拼图游戏”。因此,大模型的输出的结果也可能是不可表明的劫难性的失败(幻觉):模型可能生成看似合理但错误的答案(如“9.11比9.9大”),因为其本质是基于概率的“随机鹦鹉”;用户误以为模型“有意识”,实则是数据模式的“概率组合”。正是因为大模型自然的这种不可表明性问题,在非常严肃的应用场景下,例如"我站在二楼楼顶,跳下去会不会失去生命”,我们需要一种本领(RAG)确保大模型输出的答案具有确定性,以增强用户对大模型的”信心“,以防止劫难性情景的发生。三、大模型的数据安全问题私有化练习专用大模型资金成本和时间成本都很高,然而公用大模型的所包罗的全部数据,通过一定的提示词引导,均可输出其掌握的信息,不具备隐私保护功能。在利用RAG体系之后,由于模型构造答案所用到的知识泉源于预先提供的知识库信息,利用个人私有数据不仅可以使得模型的答案具有个性化,同时能让整个体系的数据更加安全,防止隐私数据被诱导泄露。RAG本质上是一种大模型“外挂数据库”,为提升数据的检索速率和数据命中率,差别的数据范例需要差别的构造形式,需要差别范例的数据库举行存储。实现RAG的数据库紧张有:向量数据库(最常用)、图数据库、知识图谱(一样平常基于图数据库)、混合架构数据库(一样平常基于搜索引擎如Elasticsearch)等。下面逐一先容:
向量数据库
向量数据库代表产品:LanceDB、Chroma、Pinecone。
*适用数据范例:*

  • 非结构化数据:文本、图像、音频等,并根据语义相似性搜索数据。向量模型用于为数据库中存储的数据生成向量嵌入。根据数据范例、任务和向量模型的差别,数据需要被切分成更小的块。例如,如果要存储文本数据,则可以将数据切分成句子或段落。
  • 高维语义特征数据:如语义相似度匹配的问答对、商品形貌向量等。
典型应用场景:

  • 实时语义搜索(电商商品保举、聊天记载分析)。
  • 多模态内容匹配(图片搜索、跨语言文档检索)。
  • 大模型上下文增强(RAG中的Top-K片段召回)。
核心优势:

  • 高效相似性检索:支持ANN算法(如HNSW、IVF),实现毫秒级相应。
  • 多模态兼容:同一处置惩罚文本、图像、音视频的向量表示。
  • 横向扩展:支持百亿级向量分布式存储,如Milvus的主动分片机制。
图数据库
图数据库以节点和边的形式存储数据。它适用于存储结构化数据,如表格、文档等,并利用数据之间的关系搜索数据。例如,如果你正在存储有关人员的数据,可以为每个人创建节点,并在彼此相识的人之间创建边。当对图数据库举行查询时,图数据库返回与查询节点相连的节点。这种利用知识图谱的检索对于完成像问题回答如许的任务非常有效,此中答案是人或实体。
图数据库代表产品:Neo4j、Nebula Graph、HugeGraph
适用数据范例

  • 结构化关系数据:实体(如人物、产品)及其关联关系(如“推出”“属于”)。
  • 知识网络:企业构造架构、产品技术图谱。
典型应用场景

  • 复杂逻辑推理(如“饺子导演的影戏有哪些”)。
  • 跨实体关系查询(如供应链上下游分析)。
核心优势:
多跳推理:通过图遍历实现复杂关系查询(如3度人脉挖掘)。
动态权重:支持边属性动态调整(如外交网络影响力盘算)。
可视化分析:直观展示实体关系网络。
知识图谱
*知识图谱通常与图数据库结合存储,并集成向量检索模。知识图谱与图数据库在RAG中形成“语义层+存储层”的协同架构:*
知识图谱办理“为什么”(推理依据)的问题,例如法律咨询中引用法规条款的合法性验证;
图数据库办理“是什么”(数据存储)的问题,例如实时查询外交网络中的用户关系链。
两者结合可覆盖从数据管理到知识推理的全链路需求,例如油气行业RAG体系常采用Neo4j(图数据库) + 领域知识图谱 + 向量数据库的混合架构,兼顾精准检索与语义明白。
知识图谱代表产品:AWS Neptune(全托管知识图谱服务)、Stardog(企业级语义推理引擎)、Apache Jena(开源RDF框架)。
适用数据范例
混合型数据:结构化实体属性(如影戏票房)+非结构化文本形貌。
多源异构数据:跨数据库、API和文档整合的知识体系。
典型应用场景

  • 动态知识扩展(如实时更新行业标准)。
  • 增强答案可表明性(提供推理路径)。
核心优势:
语义明白:通过本体建模实现上下文精准捕捉。
可表明性:答案生成附带证据链(如法规条款引用)。
动态更新:支持增量知识注入与版本管理。
混合架构数据库
在RAG体系中,可以从通用搜索引擎(如百度、Bing等)或内部搜索引擎(如Elasticsearch、Solr等)中检索数据。在RAG架构的检索阶段,利用问题/任务详细信息查询搜索引擎,搜索引擎返回最相干的文档。搜索引擎对于从网络中检索数据和利用关键字搜索数据非常有效。**可以将来自搜索引擎的数据与来自其他数据库(如向量存储库、图数据库等)的数据结合起来,以进步输出的质量,因此可以称之为混合架构数据库。****混合架构数据库代表产品:**Elasticsearch + Neo4j(全文检索+图推理)。Milvus + TigerGraph(向量+图连合查询)。Azure Cognitive Search(内置多模态混合检索)。**适用数据范例:**混合数据:非结构化文本+结构化关系数据。动态场景:需同时处置惩罚模糊语义与精确规则。**核心优势:**机动检索计谋:向量相似度与图遍历连合优化。成本平衡:热数据向量化+冷数据图谱化分级存储。准确性提升:通过多源结果交叉验证减少幻觉。**典型应用场景:**企业级智能客服(政策查询+流程审批推理)。科研文献分析(论文相似性检索+作者合作网络)。金融投研(行情数据匹配+产业链关联分析。
如何学习大模型 AI ?

由于新岗位的生产服从,要优于被取代岗位的生产服从,所以现实上整个社会的生产服从是提升的。
但是具体到个人,只能说是:
“开始掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在盘算机、互联网、移动互联网的开局时期,都是一样的原理。
我在一线互联网企业工作十余年里,引导过不少偕行子弟。帮助许多人得到了学习和成长。
我意识到有许多履历和知识值得分享给大家,也可以通过我们的本领和履历解答大家在人工智能学习中的许多困惑,所以在工作繁忙的环境下还是对峙各种整理和分享。但苦于知识传播途径有限,许多互联网行业朋侪无法获得精确的资料得到学习提升,故此将并将紧张的AI大模型资料包罗AI大模型入门学习思维导图、佳构AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的熟悉,对大模型 AI 的明白超过 95% 的人,可以在相干讨论时发表高级、不跟风、又接地气的看法,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。


  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的本领。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。


  • 为什么要做 RAG
  • 搭建一个简朴的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 体系的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地摆设

第三阶段(30天):模型练习

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相干的工作,本身也能练习 GPT 了!通过微调,练习本身的垂直大模型,能独立练习开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?


  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型练习
  • 求解器 & 丧失函数简介
  • 小实行2:手写一个简朴的神经网络并练习它
  • 什么是练习/预练习/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实行数据集的构建

第四阶段(20天):贸易闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下摆设大模型,找到适合本身的项目/创业方向,做一名被 AI 武装的产品司理。


  • 硬件选型
  • 带你了解全球大模型
  • 利用国产大模型服务
  • 搭建 OpenAI 署理
  • 热身:基于阿里云 PAI 摆设 Stable Diffusion
  • 在本地盘算机运行大模型
  • 大模型的私有化摆设
  • 基于 vLLM 摆设大模型
  • 案例:如何优雅地在阿里云私有摆设开源大模型
  • 摆设一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法存案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的本身。
如果你能在15天内完成全部的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的精确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋侪们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

宁睿

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表