ToB企服应用市场:ToB评测及商务社交产业平台

标题: 一文让你搞懂向量数据库!团结大模型Agent,简直不要太好用! [打印本页]

作者: 玛卡巴卡的卡巴卡玛    时间: 3 天前
标题: 一文让你搞懂向量数据库!团结大模型Agent,简直不要太好用!
在最近两年的时间里,我们正处于人工智能革命浪潮中。

以 ChatGPT 为代表的大语言模型问世,它在带来巨大震撼的同时,其自然缺陷和诸多限定也让开辟者颇为困扰,好比存在输入上下文 token 限定、不具备影象能力等问题。
于是,向量数据库应运而生,办理了大模型长时影象的问题,同时开辟者还发现不止于此,向量数据库还有助于办理大模型幻觉问题(即胡说八道)
下面,让我们一起来了解一下毕竟什么是向量数据库,向量数据库的原理是什么?
一、什么是向量数据库

一句话概括:向量数据库的核心是把文本转换为向量,然后存储在向量数据库中,并提供向量相似性检索
当用户输入问题时,将问题也转化为向量,在向量数据库中查找最相似的上下文向量,末了将文本返回给用户。
举个例子:
当有一份文档需要 GPT 处理时,假设这份文档是客服培训资料或操纵手册,可先将这份文档的所有内容转化为向量,并存储到向量数据库中。
然后当用户提出相关问题时,把用户的搜索内容转换为向量,在向量数据库中搜索最相似的上下文向量,再返回给 GPT。
如许不仅能大幅淘汰 GPT 的盘算量,进步相应速度,更重要的是能降低本钱,并避开 GPT 的 tokens 限定。

再举个例子:
当和 ChatGPT 之间有一段很长的对话时,可以将过去的对话以向量的形式保存起来。
当向 ChatGPT 提问时,将问题转化为向量,对过去所有的谈天记录举行语义搜索,找到与当前问题最相关的 “影象”,一起发送给 ChatGPT,从而极大进步 ChatGPT 的输出质量。
二、向量数据库的技术原理

前面简单介绍了什么是向量数据库,接下来,让我们一起来了解一下向量数据库的技术原理!
2.1 词嵌入技术

传统数据库一般通过不同的索引方式(如 B Tree、倒排索引)和关键词匹配等方法实现,本质上基于文本精确匹配,语义搜索功能较弱。
例如,搜索 “小狗”,只能获取带有 “小狗” 关键词的结果,无法得到 “柴犬”“哈士奇” 等结果。
因为 “小狗” 和 “柴犬” 是不同关键词,传统数据库无法识别它们的语义关系。
可以使用模型提取不同关键词的特征,得到特征向量,不同向量之间可通过内积或余弦判断其相似关系,如许就可以使用特征向量举行语义搜索。

我们将关键词转换为特征向量的过程称为Embeding。
2.2 间隔度量

下面,我们来了解一下怎样度量两个向量的相似度。现在常见的向量相似性的度量方法有三种:

欧式间隔

欧式间隔表示两个向量的间隔,盘算公式如下:

欧式间隔可以反应两个向量之间的绝对间隔,实用于需要考虑向量长度的相似度盘算。
例如,在推荐系统中,需要根据用户的历史行为来推荐相似的商品,这种情况下,需要考虑用户历史行为的数量,而不仅仅是用户历史行为相似度。

余弦相似度

余弦相似度表示两个向量之间夹角的余弦值,盘算公式如下:

此中,和表示两个向量的模长,和表示向量,表示点积。
余弦相似度因为对向量做了归一化,以是对长度并不敏感,适合盘算文档相似性。

点积

点积是指两个向量之间的点积值,盘算公式如下:

此中和表示向量,和表示向量的第个元素。
点积的有点是盘算速度快,元素相乘并相加即可,同时分身了长度和方向,实用于图像识别、语义检索等场景。将归一化后的向量做点积,实际上就是余弦相似度。

2.3 相似性检索

我们知道,可以通过比较向量之间的间隔来判断他们相似度,那么怎样将其应用到真实场景中呢?
想要在海量的向量中找到和查询向量最相似的向量,最质朴的方法是:查询向量和数据库中的所有向量都举行一次盘算,然后从中找出来间隔最小的TopK个向量。
质朴方法的好处是,召回的向量肯定是全局最相似的,缺点也很显着,就是盘算量太大,太耗时。
以是,我们需要一种高效的算法来办理这个问题。
现在,业界主流的方法是通过构建图索引的方式来时间最近邻检索,比较有名的是Hierarchical Navigable Small Word(HNSW)算法。
HNSW是一种基于图的近似最近邻搜索算法,主要用于在极大量的候选会合快速找到与查询点(Query)最近邻的K个元素。其结构如下:

下面简述一下HNSW算法步调:
建库(构建索引)

检索(最近邻检索)

HNSW 算法具有高效性,通过构建多层超平面将高维数据点构造成层次化结构,降低查找最近邻时间复杂度至O(log n)。
具有近似性,接纳小世界导航图结构使搜索结果有近似性且可通过调整参数平衡近似程度与搜索性能。
同时还具有可扩展性,能轻松支持新增、删除数据点及高维空间搜索。
三、总结

本文主要介绍向量数据库的原理与实现,内容涵盖向量数据库的基本概念、相似性搜索算法、相似性测量算法。
向量数据库是一个新兴领域,当前大部分向量数据库公司的估值因 AI 和 GPT 的发展而快速增长。
然而,在实际业务场景中,向量数据库的应用场景现在还较少。
去除浮躁因素,向量数据库的应用场景有待开辟者和业务专家挖掘。
怎样系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让步伐员们开始重新评估自己的本事。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不停。
究竟上,抢你饭碗的不是AI,而是会使用AI的人。
继科大讯飞、阿里、华为等巨头公司发布AI产物后,许多中小企业也陆续出场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通步伐员,还有应对的时机吗?
与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容许多,现在网上的老课程老教材关于LLM又太少。以是现在小白入门就只能靠自学,学习本钱和门槛很高。
针对所有自学遇到困难的同学们,我帮各人系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包罗LLM大模型书籍、640套大模型行业陈诉、LLM大模型学习视频、LLM大模型学习门路、开源大模型学习教程等,




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4