在这个数据驱动的大模型期间,数据集成的作用和意义愈发重要。数据不仅仅是信息的载体,更是推动企业决策和创新的关键因素。作为全球最流行的批流一体数据集成工具,WhaleTunnel随着WhaleStudio 2.6版本正式发布,带来了多项功能加强和新特性,性能大幅提升,毗连器和功能方面也有大量更新。
上周,关于数据调理平台WhaleScheduler的更新状况在《WhaleStudio 2.6重磅发布!调理模块WhaleScheduler更新78项核心功能》中已有介绍,点击链接了解详情。
WhaleTunnel
WhaleTunnel是基于白鲸开源主导的Apache SeaTunnel之上精心打磨的商业级的数据集成工具,拥有数据传输速度快、正确率高、稳固性强等技术特点,帮助企业完成内部EtLT中数据集成EtL部分,支持百余种毗连器范例,满足用户离线全量同步、离线增量同步、实时增量同步、变革数据捕获(即CDC)、数据库同步备份等需求。快速产物以代码形式面向数据开发工程师以及任何必要数据集成服务的用户,同时也提供可视化拖拽界面给数据科学家、数据分析师、产物经理等业务用户,支持全流程可视化的使命定义、调用、监控和管理。
数据源更新(部分)
2.6版本新增了多种数据源,数据源支持数目已经到达了188个,部分增加的数据源如下:
信创ARM CPU优化
在WhaleTunnel 2.6版本当中,Zeta Engine针对以ARM内核的CPU进行了引擎层面的深度优化,性能提升数倍(相关性能POC报告后续发布)。
- 内存映射文件和零拷贝技术: 为了最大限度地减少I/O开销,Zeta Engine采取了内存映射(mmap)技术和零拷贝(zero-copy)技术,直接在内存中操作文件数据。这样不仅加快了数据处理速度,还低落了系统资源的消耗。
- 内存对齐:Zeta Engine确保数据结构在内存中的对齐性,有效减少了内存访问的开销。内存对齐优化不仅提高了内存访问的效率,还提升了数据处理的整体性能。
- 高效算法: Zeta Engine利用了得当ARM架构的高效算法,减少不必要的盘算和数据移动。通过高效的排序和过滤算法,显著提升数据转换和处理的效率。Zeta Engine算法优化确保了在数据麋集型使命中,系统能够保持卓越的性能。
- 多核架构利用: Zeta Engine充实利用ARM CPU的多核架构,将ETL使命分解为更小的使命,进行多线程或多进程并行实行。通过并行化处理,显著缩短了数据处理的时间,提升了系统的吞吐量。
数据模型及主动建表能力加强
- 主动建表、已有数据处理: 除了文件范例的数据源外,所有数据源现支持主动建表。无论是已有表结构还是已有数据处理,WhaleTunnel都能轻松应对。同时,目标端支持自定义表名策略。无需手动处理复杂的表结构,极大地减少了数据集成的时间和人工本钱。
- 数据模型推演: 在使命保存时主动触发,主动检查source、transform、sink中的配置是否合法;在使命重同步表发生表结构变革时,检查其变革可能导致的配置项非法问题。确保数据流的稳固性和一致性,减少因配置错误导致的数据同步失败。在运行数据集成使命之前,就可以主动辨认潜在的问题并提前修复。
图片
- 数据范例主动映射: 数据源到目标端的数据范例主动映射。主动适配差别的数据范例,减少手动调解的贫苦。从差别数据库迁徙数据时,无需担心范例不匹配的问题。
与WhaleScheduler全面集成
- 增量同步和参数通报: WhaleTunnel与WhaleScheduler精麋集成,根据调理中的日历、业务日期(牌)以及上下游参数进行增量同步大概参数通报来进行数据内容控制,进一步提高数据同步的灵活性和正确性。例如,在券商羁系报表天生时,能够主动获取符合上报规则生意业务日期的数据,确保数据的正确性。
- 独立同步调理使命组件: WhaleTunnel拥有独立的CDC实时调理组件和批量调理组件,可以在WhaleScheduler成为独立使命组件被上下游进行触发等工作,实现更灵活的使命调理和管理。在数据集成之后,进行相关数据加工,大概自定义微批使命,实现微批使命的串行等待等。
- 增量数据参数通报: 离线全量Source支持根据自定义where条件读取,可以利用调理通报的参数变量实现增量数据参数通报,精准控制数据同步范围,实现增量/批量/微批的多场景控制,提升整体数据批量和CDC实时处理能力。
加强可观测性与监控诉警
- 离线同步新增支持失败、超时告警, 提前预警潜在问题,减少数据同步失败带来的影响。举例来说,在夜间批处理使命中,能够实时发现并处理非常,确保数据同步的顺遂进行。
- 实时同步新增失败告警、实时同步新增DDL变动事件告警:实时监控数据同步状态,快速响应和处理非常情况。例如,电商平台可以实时发现和修正订单数据同步中的问题,确保业务的连续性,可以让用户快速收到DDL变动情况,从而更早的手工干预。
通过假造表支持非结构化数据可视化转化
- 文件数据源: 新增支持 CSV文件范例以压缩格式读写,支持读取时跳过表头和写入时写入表头设置,支持新的文件格式:DBF, Debezium-Json, 更灵活地处理差别格式的文件数据,提高数据导入导出的效率。
- No-SQL数据源支持: 创建假造表时支持配置主键,且sink主动建表时利用该主键建表,提高数据一致性和查询效率。例如,在处理NoSQL数据时,可以更好地管理和索引数据。
3. 假造表支持设置索引
4. HTTP数据源假造表优化: 优化数据源和假造表配置,token、路径、哀求参数等支持填写参数变量,更灵活地集成和管理HTTP数据源,提高数据获取的灵活性和效率。
CDC同步加强功能
- 唯一索引表同步: CDC同步源表现支持拥有唯一索引的表同步,确保数据的唯一性和完备性。例如,在用户信息同步时,可以确保用户ID的唯一性,避免数据重复和冲突。
- 无主键表同步: CDC同步源表支持无主键表的同步,提供更广泛的数据同步支持,适应更多样化的数据库设计。例如,在某些汗青数据表中,可能没有主键的设计,但仍旧可以实现高效的数据同步。
小结
WhaleTunnel 2.6版本功能非常强盛,涵盖了从数据模型设计、主动化建表,到高效的数据同步和监控诉警,以及多样化的数据源支持。无论您的数据集成需求是简单的数据传输还是复杂的实时分析,WhaleTunnel都能为您提供定制化的解决方案,帮助您实现数据驱动的业务成功。
我们期待与您一同欢迎数据集成的新期间!如果您对WhaleTunnel 2.6版本有任何疑问或想了解更多信息,请随时接洽我们的客户服务团队。感谢您对WhaleTunnel的信任和支持!
白鲸开源
白鲸开源是一家开源原生的DataOps商业公司,是国家高新技术企业,由多个Apache Foundation Member成立,80%员工都是 Apache Committer,运营2个全球Apache开源项目(DolphinScheduler, SeaTunnel)。白鲸开源已根据全球最佳实践发布商业版产物WhaleStudio(含白鲸数据调理平台WhaleScheduler和白鲸数据集成平台WhaleTunnel)。我们致力于打造下一代开源原生的DataOps 平台,助力企业在大数据和云期间,智能化地完成多数据源、多云及信创情况的数据集成、调理开发和管理,以提高企业解决数据问题的效率,提升企业分析洞察能力和决策能力。
接洽方式
- 公司网站: www.whaleops.com
- 接洽邮箱: service@whaleops.com
如果您希望深入了解我们的其他功能,大概讨论怎样将 WhaleStudio 与你的业务流程相结合,我们非常愿意为你提供帮助。欢迎您首先试用白鲸调理系统(WhaleScheduler),开始您的大数据之旅。
本文由 白鲸开源 提供发布支持!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |