您应该使用哪个矢量数据库? 选择最适合您需求的数据库 ...

打印 上一主题 下一主题

主题 541|帖子 541|积分 1623

导言

矢量数据库已成为存储非布局化和布局化数据表示并体例索引的首选。 这些表征被称为向量嵌入,由嵌入模子生成。 向量存储在使用深度学习模子(尤其是大型语言模子)的应用开发中发挥着至关告急的作用。
什么是矢量数据库?

在实际世界中,并非全部数据都能整齐地排列成行和列。 在处置惩罚复杂的非布局化数据(如图像、视频和天然语言)时尤其如此。
矢量数据库是一种以高维矢量情势存储数据的数据库,本质上是代表对象特性或特性的数字列表。 每个矢量对应一个独特的实体,如一段文本、图像或视频。
但为什么要使用矢量呢? 奥妙就在于它能够捕捉语义和相似性。 通过将数据表示为向量,我们可以对它们举行数学比力,并确定它们的相似或不相似程度。 这使我们能够执行复杂的查询,如 "为我查找与此相似的图片 "或 “检索与此文本语义相关的文档”。
为什么需要矢量数据库?

比年来,矢量数据库越来越受接待,尤其是在呆板学习(ML)和人工智能(AI)范畴。 人工智能和 ML 模子的复杂性要求接纳有用的方法来存储、搜刮和检索它们所处置惩罚的大量非布局化数据。
对于为布局化数据而构建的传统数据库来说,矢量数据的复杂性和大小可能常常会让它们难以承受。 相反,矢量数据库就是为此而专门计划的。 它们提供专门的搜刮和索引算法,纵然在拥有数十亿条目的数据库中,也能敏捷找到可比力的矢量。
矢量数据库的不同用例

通过查找可比矢量的能力,人工智能和 ML 的应用得到了极大扩展。 典范用例包括:


  • RAG 系统: 矢量数据库可与大型语言模子(LLMs)相联合,构建以知识为根本的语言人工智能应用。
  • 保举系统: 矢量数据库可以将用户偏好和项目属性表示为矢量,从而为高度个性化的保举引擎提供动力。
  • 通过搜刮视觉相关的图像或视频,矢量数据库彻底改变了基于内容的检索。
  • 天然语言处置惩罚: 矢量数据库通过将文本转换为矢量,提供语义搜刮、主题建模和文档分组功能。
  • 敲诈检测: 矢量数据库可用于帮忙识别金融生意业务中的趋势和非常情况。
矢量数据库比力

现在有很多矢量数据库,如 Qdrant、Pinecone、Milvus、Chroma、Weaviate 等。 每个数据库都有自己的优势、利弊和理想用例。 在此,我们将对 Pinecone、Milvus、Chroma、Weaviate、Faiss、Elasticsearch 和 Qdrant 等盛行的矢量数据库举行全面比力。
部署选项

在这方面,Pinecone 是个异数。 出于性能和可扩展性的考虑,Pinecone 是一项完全托管的服务,因此无法在当地运行实例。 Milvus、Chroma、Weaviate、Faiss、Elasticsearch 和 Qdrant 都可以在当地运行;其中大多数都提供了用于运行的 Docker 镜像。

可扩展性

Qdrant提供静态分片功能;假如数据增长超出服务器容量,则需要向集群添加更多呆板,并重新分片全部数据。 这可能是一个耗时且复杂的过程。 此外,不平衡的分片会带来瓶颈,降低系统效率。
Pinecone 通过其 Serveless Tier 支持盘算和存储的分离。 对于基于 POD 的集群,Pinecone 接纳的是静态分片,要求用户在扩展集群时手动重新分片。
Weaviate 提供静态分片。 在没有任何分布式数据替换的情况下,Chroma 无法扩展到单节点以外的规模

性能基准测试



  • Qdrant险些在全部场景中都实现了最高的RPS和最低的延迟,无论我们选择的精度阈值和指标如何。 在其中一个数据集上,它的 RPS 也进步了 4 倍。
  • Elasticsearch 在很多用例中都变得相称快,但在索引时间方面却非常慢。 当存储 1,000 多万个 96 维向量时,它可能会慢 10 倍! (32 分钟对 5.5 小时)
  • 在索引时间方面,Milvus 是最快的,而且精度也很高。 不外,当嵌入维度较高或向量数量较多时,Milvus 在 RPS 或延迟方面就无法与其他产品相提并论了。
  • Redis 能够实现较好的 RPS,但主要是在较低精度的情况下。 在单线程情况下,Redis 也能实现较低的延迟;但在并行哀求较多的情况下,延迟会敏捷增加。 速率提升的部分原因是其定制协议。
  • 随着时间的推移,Weaviate 的改进最小。 由于其他引擎的相对改进,就 RPS 和延迟而言,它已成为最慢的引擎之一。

数据管理


矢量相似性搜刮

矢量数据库如此有用的原因之一是,它们可以告诉我们事物之间的关系,以及它们的相似或不相似程度。 矢量数据库可以通过各种距离度量来实现这一功能,不同的矢量数据库会接纳不同的距离度量。

集成和应用程序接口

REST 应用程序接口更常见,而 GRPC 应用程序接口则面向延迟关键场景或需要快速移动大量数据时的性能和吞吐量。 根据您的要求和网络情况,GRPC 的速率可比 REST 快数倍。

社区和生态系统

开放源代码意味着我们可以欣赏核心数据库的源代码,矢量数据库具有灵活的许可模式。

元数据过滤

元数据是一个非常强大的概念,与矢量数据库的核心功能相辅相成;它是含糊的人类语言与布局化数据之间的纽带。 这是架构的根本,当人类用户询问产品时,人工智能购物助手会立即回复他们所描述的产品。

向量数据库功能



  • Qdrant: Qdrant 使用三种类型的索引为其数据库提供动力。 这三种索引分别是有用载荷索引(类似于传统的面向文档数据库中的索引)、字符串有用载荷全文索引和矢量索引。 他们的混合搜刮方法是矢量搜刮与属性过滤的联合。
  • Pinecone: RBAC 对于大型企业来说是不敷的。 存储优化(S1)在性能方面存在一些挑战,只能达到 10-50 QPS。 命名空间的数量有限,用户在使用元数据过滤作为绕过这一限制的方法时应小心谨慎,因为这将对性能产生很大影响。 此外,这种方法也无法实现数据隔离。
  • Weaviate: Weaviate 使用两种索引为其数据库提供支持。 一种是将数据对象属性映射到其在数据库中的位置的倒排索引,另一种是支持高性能查询的矢量索引。 此外,它的混合搜刮方法使用密集向量来理解查询的上下文,并联合稀疏向量来举行关键字匹配。
  • Chroma:Chroma 使用 HNSW 算法来支持 kNN 搜刮。
  • Milvus:Milvus 支持多个内存索引和表级分区,从而实现了及时信息检索系统所需的高性能。 支持 RBAC 是企业级应用的要求。 关于分区,通过将搜刮限制在数据库的一个或多个子集上,分区可以提供比静态分区更有用的数据过滤方式,静态分区可能会带来瓶颈,当数据增长超出服务器容量时需要重新分区。 分区是一种管理数据的好方法,它可以根据种别或时间范围将数据分组为子集。 这可以帮助您轻松过滤和搜刮大量数据,而无需每次都搜刮整个数据库。 没有一种索引类型能适合全部的使用情况,因为每种使用情况都有不同的权衡标准。 有了更多索引类型的支持,您就可以更灵活地在准确性、性能和本钱之间找到平衡。
  • Faiss: FAISS 是一种支持 kNN 搜刮的算法
总体比力择要



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

商道如狼道

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表