ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【CDH国产化替换案例】全面简化架构,降低本钱,大幅提升数据处置惩罚效率 [打印本页]

作者: 天津储鑫盛钢材现货供应商    时间: 2025-1-11 15:34
标题: 【CDH国产化替换案例】全面简化架构,降低本钱,大幅提升数据处置惩罚效率
交情链接:

前言

随着市场快速变革,大数据平台也面临着诸多挑衅和变革。对于依赖CDH构建大数据平台的企业来说当前正在面临以下多重挑衅:

综上,CDH国产化替换已迫在眉睫,不仅关乎技术升级和数据安全,也涉及合规性和本地化服务的稳定性。企业需要积极寻求新的技术平台和合作伙伴,以确保在数字经济时代保持竞争力和业务一连性。

项目背景

为了应对数据量的日益增长,在早期,该企业构建了一个基于MPP技术架构的数据堆栈。但是在企业日常生产运行过程中,伴随着业务的连续发展以及金融科技底子能力的不断提升,各个信息体系数据量日渐增长,数据应用场景更加复杂化,对于数据的实效性实时性要求更高。
原有的数据堆栈架构对于实时场景与多模数据湖场景支持较差,而且应金融科技规划的重要举措,急需构建一个全行级的数据中台服务体系来满足数据应用、数据服务以及数据共享等中台场景,助力实现美满的客户管理及服务,连续产物创新,极致化的渠道服务体验,科学的决策管理,全面的数字化运营,不断促进企业数字化转型。
因此,该行于近两年着手计划创建一个统一的数据中台体系,数据类体系共享盘算和存储资源,利用统一的开发和管理工具,制止体系、功能、应用的重复性创建。

创建目的



创建成果

基于以上项目背景及创建目的,星环助力该企业打造云原生数据湖+统一数据资产管理整体办理方案,完成了原有开源大数据平台替换,对接企业现有应用与其他平台,助力该企业整体的数字化创建,各项指标性能均超额完成预期目的实现数据处置惩罚效率的性能突破:


技术点实现介绍

Rowkey 表

Rowkey 表是一种优化的数据存储表,通过指定唯一主键来制止数据重复,专为进步数据写入和读取性能而计划。通过设置 rowkey,ArgoDB 实现了高性能的 UPSERT 能力,即在写入时能够直接定位数据行,制止全表扫描,实现快速的整行或部门列更新,确保数据的唯一性。
推出背景

在传统的数据存储方案中,读时归并(MOR)被广泛应用于实现快速数据写入的场景,其原理是通过将新数据追加到 Delta 文件中,而不是直接修改底子数据文件(Base 文件),从而大幅进步了写入速率,有效制止写入过程中对现有数据的直接修改,镌汰写入锁定和资源争用。
然而,在读取数据时,MOR 机制需要将 Base 文件和 Delta 文件举行归并。这种读时归并操纵会显著增长读取时的盘算开销,导致查询性能下降,尤其是在数据频繁变动和大量查询请求的场景下。这种高开销的归并操纵会拖慢体系响应时间,倒霉于实时数据访问需求。
为克服传统 MOR 机制的不足,在 ArgoDB 6.0 版本中,星环引入了 Rowkey 表(性能增强版),通过优化数据构造和管理方式,实现了快速写入和高效读取:


Rowkey 分层原理

   更多有关建表利用方法详见官方利用手册:Rowkey 表介绍  基于 API 实时入库

ArgoDB Data Sink是一种针对实时数据处置惩罚需求而计划的高效数据入库办理方案,通过 API 直接操纵物理文件的方式,联合微批处置惩罚的逻辑,为复杂的实时数据流和第三方数据源接入提供了高性能和灵活的数据写入方案。
推出背景

在实时数据处置惩罚场景中,数据源经常是分布式消息队列(如 Kafka),它能够支持高吞吐量的数据传输。传统的数据处置惩罚流程通常涉及将消息队列中的数据消费出来,颠末一系列的处置惩罚后,转换成 SQL 语句,然后通过数据库的 SQL 引擎实验,将数据最终写入到物理存储中。这种流程虽然通用,但在处置惩罚高吞吐量的实时数据时,SQL 引擎的转换和实验大概会成为瓶颈,导致数据处置惩罚的延迟。
别的,对某些第三方数据源而言,其数据格式大概并不适合直接转换为 SQL 语句,大概转换的实现较为复杂,甚至有数据损失的风险。在这种环境下,传统的数据处置惩罚流程大概无法满足需求。


为了办理这些问题,ArgoDB 推出了 ArgoDB Data Sink,它允许用户绕过传统的 SQL 引擎,直接将数据以 API 的形式写入到 ArgoDB 的物理文件中,并通过微批处置惩罚的方式举行数据写入,极大地提升了数据处置惩罚的效率和灵活性,适用于下述场景:

   更多示例代码以及利用注意事项详见官方利用手册:基于 API 实时入库  物化视图 2.0

全新的物化视图 2.0 突破了传统方案的语法限定和 MBO 改写限定,为复杂查询提供了更快、更精准的加速能力。
   视图(VIEW)用于生存复杂的 SQL 查询,以便简化后续操纵,但其本质仍是实验生存的 SQL 语句,因此无法提升查询性能。为了办理这一问题,ArgoDB 推出了物化视图 2.0,突破了传统物化视图的 MBO 改写限定和对复杂语法支持有限的问题,显著进步数据同步效率,为您提供更快速、更精准的数据查询加速能力。  对比项物化视图 2.0传统物化视图创建支持无穷制创建语法受限语法支持无穷制仅简单语法查询原理基于视图查询,体系主动替换为关联的物化表基于源表查询,体系基于 MBO 改写更新原理基于源表最新数据创建新物化表并主动关联,随后删除旧物化表原地更新(清空表+写入新数据)结果集匹配在编译前匹配视图的结果集与其对应的物化表在实验计划阶段匹配 SQL 查询语句的结果集与物化视图数据过期体现不会读到过期数据(主动转查基表)大概会读到过期数据   更多语法介绍以及利用注意事项详见官方利用手册:物化视图 2.0  Gateway 结果集缓存

   Quark Gateway 是连接客户端与 Quark 服务的一个中间件,可帮助平衡 Quark 服务的业务流量,便捷实现查询入口的高可用、自定义路由转发和负载平衡能力。  

Gateway 缓存
为提升查询性能,Quark Gateway 引入了结果集缓存功能,通过缓存常用查询结果,显著镌汰重复查询对 Quark 服务的影响,加速相同查询的响应速率。别的,Quark Gateway 还提供了 TTL(缓存过期时间)、定时革新等多种缓存更新策略,用户可根据详细任务需求灵活选择最优方案。核心上风:

   有关如何通过其缓存功能,进一步提升查询性能的利用阐明请参考:Gateway 结果集缓存  

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4