最近大模子出来之后,向量数据库重新翻红,业界和市场上有不少声音以为向量数据库会极大的影响图数据库,图数据库市场会萎缩乃至消散,本日就从技术原理角度来讨论下图数据库和向量数据库到底差别在哪里,适合什么场景,图数据库会不会消散。
当前,百度智能云云数据库特惠专场开始!热销规格新用户免费利用,欢迎参与!
人工智能思绪之争
讨论图、向量,大模子之前先简单说下人工智能发展过程中出现的主义之争。人工智能在已往几十年的发展中,出现了好几种思绪,也就分为几大学派,或者主义。分别是:
- 符号主义(symbolicism),又称为逻辑主义、生理学派或盘算机学派,主要就是基于逻辑推理的智能模仿方法,对应到人类智能就是认知能力(学习能力、推理能力、专家能力),知识图谱就是源于符号主义。
- 毗连主义(connectionism),又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的毗连机制与学习算法,深度神经网络解决的就是感知智能(人类的眼、耳、鼻、舌、身对环境的感知能力),如今的大模子就是毗连主义的产物,但同时由于模子参数足够大,从感知智能又突破到了认知智能,乃至将来会走向 AGI(通用人工智能)。
- 举动主义(actionism),又称为进化主义或控制论学派,其原理为控制论及感知-动作型控制系统,这一派主要搞机器人。比如机器人的操控,要求机器人不光要认知和感知,还要操作和行动。nvidia的黄教主最近就各种场合讲将来是机器人的期间。
这三种主义是思绪之争,其实也代表了对人工智能模仿的三个路径。将来大概会走向大一统和融合。
图数据库适合什么场景
图数据库比起传统的信息存储和构造模式,图数据库可以或许很清楚展现复杂的模式,尤其在错综复杂的社交,物流,金融风控行业效果更为显着。典范场景有:
- 社交网络:数十亿关系查询,传统关系型数据库无法胜任低时延,以及凌驾 3 层好友关系的查询。
- 保举引擎:通过用户的爱好、好友和阅读历史记载等信息之间的关系,向用户提供保举。典范用在电商、短视频、新零售场景。
- 网络&IT 运维:底子装备规模庞大,结构复杂,资助深入相识装备状态,装备之间的关系,实现网络装备智能监控和管理。
- 金融风控:提供及时的用户举动检测,识别敏感用户,及时识别敲诈风险,错综复杂的人物关系分析,举行用户分群,识别非常群体等。
向量数据库适合什么场景
向量数据库最早解决非结构化数据相似度检索问题。通过把非结构化数据 embedding 成向量,通过向量的相似度检索来实现非结构化数据的相似度搜索。电销场景有:
- 相似度检索:可以做多模态检索(文本、图片、音频、视频),保举系统,分类系统等。典范用在
- 互联网,如电商的保举。
- 政企,如公安的图谱搜索
- 自动驾驶,质检图谱的搜索等
- 语义检索:利用文本,向量的混合搜索,实现多路召回,再加上reRanker模子实现语义排序。常用于企业的搜索,实现高质量的搜索
- RAG:大模子活了,搭配大模子利用,把检索结果给到大模子,实现高质量的总结。最常用的是知识库,客服,大模子影象问答等场景。这块各行各业都在实验和创新的 copilot 就是用到了 RAG 技术。
用一张表格总结如下:
分类
| 分析
| 能做什么业务
| 典范场景和行业
| 相似度检索
| 向量传统应用场景,向量检索为主
|
- 多模态检索(文本、图片、音频、视频)
- 保举系统
- 分类系统
|
- 互联网,电商的保举
- 政企,如公安的图片搜索
- 网盘,自动驾驶里面的图片搜索
| 语义搜索
| 文本和向量混合索引
替代 ES 的一些搜索场景
|
- 文档,向量混合搜索,多路召回
- reranker 模子一样平常有Cohere Rerank(闭源)和BGE-Reranker(开源)
|
| RAG
| 搭配大模子利用,检索结果给大模子总结
|
|
|
两者对比
图数据库擅长推理能力,但是图实体模子建立本身门槛高,需要大量专业职员。向量数据库人工介入较少,但是结果准确度就差一些,各有各合适空间。下面是两者的对比:
| 向量数据库+大模子
| 图数据库+知识图谱
| 性能
| 数据量大,性能更好
| 数据量大,性能受挑战
| 复杂问题
| 复杂问题,查询结果不一定完整
| 复杂问题,可以取得更可靠的内容
| 建模难度
| 适合处理非结构化数据,文本转换成高维向量
| 实体关系建模,构建知识图谱
建模工作难度和工作量很大
| 适合场景
| 智能保举系统:找出相似的,不需要精确
| 决策支持系统,需要梳理特定关系,保证逻辑关系正确性
| 因此我们可以看出,向量和知识图谱还是有各自适合的范围。
选型思量条件
假如一个业务到底要选型向量还是知识图谱,就要从多个维度去思量,下面是建议参考和选型的维度:
| 向量数据库
| 知识图谱
| 问题复杂度
| 非结构化,无复杂关系的选向量
| 大量相互关联知识实体
| 利用场景
| 简单相似度搜索,用向量数据库
| 基于实体关系的,复杂推理
| 数据量考量
| 扩展性高,数据量大
| 数据增长,关系复杂,维护难度会变高
| 团队能力
| 人力缺乏,选向量
| 事件建模,开发,算法技能
| 将来趋势
目前市面上看到各个厂家都在纷纷探索向量+图的融合演进,可见的将来,大概率两者会取各自优点,举行融合解决更复杂的问题。
当前,百度智能云云数据库特惠专场开始!热销规格新用户免费利用,欢迎参与!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |