VTS:基于Apache SeaTunnel的开源向量数据迁移工具

打印 上一主题 下一主题

主题 799|帖子 799|积分 2397

引言

VTS(Vector Transport Service),全称向量传输服务,是一个由Zilliz开辟的专注于向量和非结构化数据迁移的开源工具。VTS的核心特点在于其基于Apache SeaTunnel开辟,这一毕竟使其在数据处理和迁移方面具有显著的优势。Apache SeaTunnel作为一个分布式数据集成平台,以其丰富的连接器系统和多引擎支持而闻名,VTS正是在此底子上,进一步扩展了其在向量数据库迁移和非结构化数据处理的能力。
VTS:基于Apache SeaTunnel的开源向量数据迁移工具
什么是向量数据库

向量数据库是一种专门用于存储和检索向量数据的
数据库系统:
• 它能够高效处理高维向量数据,支持相似性搜索
• 支持KNN(K-近邻)搜索
• 计算向量间的间隔(欧氏间隔、余弦相似度等)
• 快速检索最相似的向量
• 主要用于AI和机器学习应用场景
• 图像检索系统
• 推荐系统
• 自然语言处理
• 人脸识别
• 相似商品搜索

开辟动力和背景

作为领先的向量数据库服务提供商,Zilliz 深知开辟精彩的 AI 应用离不开数据本身。然而,在有效处理 AI 应用中的非结构化数据时,我们常常碰面临以下挑战:

  • 数据碎片化:用户数据分散在多个平台中,如 S3、HDFS、Kafka、数仓和数据湖。
  • 多样的数据格式:非结构化数据以各种格式存在,包罗 JSON、CSV、Parquet、JPEG 等。
  • 缺乏完整的解决方案:目前没有一款产品能够完全满足跨系统高效传输非结构化数据和向量数据的复杂需求。

在上述这些挑战中,最突出的就是,如何将转化来自各种数据源和以各种格式存在的非结构化数据,并导入向量数据库中。这一过程比处理传统的 SQL 关系型数据要复杂得多,大部分公司或组织都低估了这一点。
因此,许多公司或组织在搭建自定义的非结构化数据流水线(Pipeline)时,通常碰面临性能、可扩展性和维护成本的题目。这些题目可能会影响数据质量和正确性,从而可能削弱应用的数据分析能力。
更糟糕的是,许多公司在选择向量数据库时都忽视或者低估了供应商锁定和数据容灾等因素。
供应商锁定带来的影响

供应商锁定是指一个组织过分依赖单一供应商的专有技术。在这种情况下,该组织会难以切换到另一种解决方案,或者切换方案的成本非常高昂。这个题目在向量数据库领域尤为紧张,由于向量数据的特性和缺乏标准化数据格式可能使得跨系统数据迁移变得极具挑战性。
供应商锁定的影响远不止于此。它还限制了组织在面对业务需求变化时的灵活性,甚至可能随着时间的推移会进一步增加组织运营成本。此外,锁定单一供应商的生态系统还会限制技术创新。如果所选解决方案无法很好地随着组织需求的增长而扩展,还会影相应用系统的性能。
在选择向量数据库时,组织应优先考虑开放标准(open standards)和互通性,从而低落上述风险。在制定清晰的数据管理计谋过程中,规划数据的可移植性至关紧张。定期评估对供应商特定功能的依赖程度,可以资助组织保持系统灵活性。
非结构化数据迁移的挑战

然而,纵然有了上述预防步伐,组织也必须准备好面对向量数据库带来的独特挑战。我们发现,向量数据库之间的数据迁移比传统的关系型数据库之间的数据迁移要复杂得多。这种复杂性凸显了选择合适的向量数据库的紧张性,并表明了为什么需要留意避免供应商锁定。向量数据库迁移的主要挑战包罗:

  • 缺乏面向向量数据库的 ETL 工具:像 Airbyte 和 Seatunnel 之类的主流工具仅面向传统的关系型数据库,无法有效满足向量数据库之间的数据迁移需求。
  • 向量数据库之间能力差异:

    • 许多向量数据库不支持数据导出。
    • 部分向量数据库的增量数据实时处理能力有限。
    • 向量数据库之间的数据 Schema 不匹配。

为应对这些挑战,组织需要构建更具弹性、灵活性和与时俱进的 AI 应用,充分使用非结构化数据的力量,并保持顺应将来技术的灵活性。
为向量数据而生的数据迁移工具

Zilliz 推出全新迁移服务(Migration Services)并将其开源,以资助用户应对上述种种挑战。Zilliz 迁移服务是一款基于 Apache SeaTunnel,专为向量数据迁移设计的工具。

迁移服务工作原理
得到验证测试后,这项服务将会merge到SeaTunnel官方分支中。
总的来说,推动Zilliz开辟这款工具的背后原因包罗:

  • 满足日益增长的数据迁移需求:用户的需求不断扩展,演变为将数据从差别的向量数据库、传统的搜索引擎(如 Elasticsearch 和 Solr)、关系型数据库、数仓、文档数据库,甚至 S3 和数据湖进行迁移。
  • 支持实时流数据流和离线导入:随着向量数据库能力的不断扩展,用户需要对实时流数据的支持和离线批量导入的能力。
  • 简化非结构化数据转换流程:与传统 ETL 差别,转换非结构化数据需要借助 AI 模型的力量。迁移服务结合了 Zilliz Cloud Pipelines,能够将非结构化数据转换为 Embedding 向量并完成数据标志等任务,显著低落数据洗濯成本和操作难度。
  • 确保端到端的数据质量:数据集成和同步过程中容易出现数据丢失和不一致的题目。迁移服务通过强大的监控和告警机制解决了这些可能影响数据质量的题目。
VTS的核心能力

基于Apache SeaTunnel

VTS继承了Apache SeaTunnel的高吞吐量和低耽误特性,同时增加了对向量数据和非结构化数据的支持。这使得VTS能够作为一个强大的工具,用于构建AI应用数据Pipeline,实现向量数据的实时同步,以及非结构化数据的转换与加载。

VTS的核心能力包罗:

  • 向量数据库迁移
  • AI应用数据Pipeline构建
  • 向量数据实时同步
  • 非结构化数据转换与加载
  • 跨平台数据集成
向量数据库迁移

VTS的核心能力之一是向量数据库迁移。它能够处理向量数据的迁移,这对于AI和机器学习应用来说至关紧张,由于这些应用常常需要处理大量的高维向量数据。
跨平台数据集成

VTS支持跨平台数据集成,这意味着它可以将数据从一个系统无缝迁移到另一个系统,无论是传统的关系型数据库还是现代的向量数据库。
VTS支持的Connector和Transform

支持的Connector

VTS支持多种Connector,包罗但不限于Milvus、Pinecone、Qdrant、Postgres SQL、ElasticSearch、Tencent Vector DB等,这使得VTS能够与多种数据源和存储系统兼容。
支持的Transform

VTS还支持多种数据转换操作,如TablePathMapper(更改表名)、FieldMapper(增删列)、Embedding(文本向量化)等,这些转换操作使得VTS在数据处理上更加灵活。
支持的数据类型

VTS支持包罗Float Vector、Sparse Float Vector、多向量列、动态列、数据插入,包罗Upsert和Bulk Insert(离线,大批量)等多种数据类型,这进一步增强了其在处理复杂数据迁移任务时的能力。
性能演示

VTS在性能上也表现精彩,例如在Pinecone到Milvus的迁移Demo中,同步1亿向量的速率为2961/s,大约需要9个半小时(4核/8GB内存)
Demo见顶部视频。
非结构化数据支持

此外,VTS还支持非结构化数据的处理,目前支持Shopify数据类型,之后将渐渐支持包罗PDF、Google Doc、Slack、Image/Text在内的非结构化数据类型,不断增强其在极其紧张的非结构化数据方面的支持力度。
应用场景

VTS的使用场景广泛,比如在商品推荐场景中,可以从Shopify同步产品和库存数据,调用嵌入服务,将数据存入Milvus,并进行相似度搜索,终极返回最相似的商品,极大地优化商品推荐的结果。
将来规划

展望将来,迁移服务将不断发展。通过VTS开源迁移服务工具,不仅仅能够解决当前向量数据管理中的题目和挑战,还在为创新型 AI 应用开辟铺平道路。
VTS的将来规划包罗支持更多的数据源,如Chroma DB、DataStax(Astra DB)、DataLake、Mongo DB、Kafka(实时AI)、对象存储导入等。

据悉,VTS直接插入原始数据和使用原始数据进行搜索的功能,预计在Milvus 2.5版本中实现。
别的,在针对GenAI的ETL pipeline方面,VTS也将尝试支持任务流编排、Embedding service,外部API,以及对开源大数据工作流调度平台Apache DolphinScheduler的支持。

结语

VTS作为一个基于Apache SeaTunnel开辟的向量数据迁移工具,不仅继承了SeaTunnel的强大数据处理能力,还扩展了对向量数据和非结构化数据的支持,使其成为AI和机器学习领域中不可或缺的数据迁移工具。更多关于VTS的信息和资源可以在其GitHub页面找到。
本文由 白鲸开源 提供发布支持!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

半亩花草

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表