Paimon 是什么?Apache Paimon简介

打印 上一主题 下一主题

主题 779|帖子 779|积分 2337

‌Apache Paimon是一个流式数据湖存储项目,旨在将Apache Flink的Streaming实时计算能力和Lakehouse新架构优势联合,促进数据在数据湖上的实时活动,并提供实时离线一体化的开辟体验‌‌1。Paimon由Flink社区内部孵化,最初名为Flink Table Store (FTS),于2023年3月进入​​​​​​​Apache软件基金会(ASF)的孵化器,并改名为Apache Paimon (incubating)‌。
官方网站:Apache Paimon | Apache Paimon

功能和特点


  • 统一批处理和流处理:Paimon 支持批量写入、批量读取,流式写入、流式更新,以及流式读取。
  • 数据湖功能:作为数据湖存储系统,Paimon 具有低成本、高可靠性、可扩展的元数据等特性。
  • 丰富的归并引擎:Paimon 支持按照用户喜欢的方式更新记录,包罗保留最后一条记录、举行部分更新或将记录聚合在一起。
  • 变动日志生成:Paimon 可以从任何数据源生成正确且完备的变动日志,从而简化流分析。
  • 丰富的表范例:除了主键表,Paimon 还支持 append-only 只追加表,自动压缩小文件,并提供有序的流读取来替换消息队列。
  • 架构:Paimon 的团体架构支持多种方式读写数据和执行 OLAP 查询。在读取层面,它可以读取 MySQL 中的数据以及消息队列中的数据。在查询层面,Paimon 除了可以和 Flink 举行交互,还可以和其他计算引擎举行交互,例如 Hive、Spark、Trino 等引擎。在底层,Paimon 会将列式文件存储在分布式文件系统中,例如 HDFS、S3,而且内部使用 LSM Tree 这种数据结构来存储数据,所以可以支持大量数据更新和高性能查询。
  • 生态系统:Paimon 支持与 Apache Flink、Apache Hive、Apache Spark 和 Trino 等计算引擎的集成。
  • 实时更新和海量附加数据处理:Paimon 提供了实时更新能力,支持定义归并引擎和变动日志生成器,以及处理大规模批处理和流处理的能力。
适用场景

Paimon适用于需要在流数据举行实时查询和分析的场景,如金融、电子商务、物联网等领域。它能够帮助用户构建高效的流式数据湖,实现高吞吐、低耽误的数据处理和实时查询能力‌。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

数据人与超自然意识

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表