【CDH国产化替换案例】全面简化架构,降低本钱,大幅提升数据处置惩罚效率 ...

打印 上一主题 下一主题

主题 862|帖子 862|积分 2586

交情链接:


  • 【数据处置惩罚效率提升实践】ArgoDB如何助力企业全面实现数据处置惩罚效率最大化?
  • 【最新案例】ArgoDB新功能之读写分离,助力某医药集团打造高效数据中央,消除传统方案的灵活性限定,确保响应时间的可猜测性
  • 【指标查询调优实践案例】ArgoDB助力某银行实现性能全面提升
前言

随着市场快速变革,大数据平台也面临着诸多挑衅和变革。对于依赖CDH构建大数据平台的企业来说当前正在面临以下多重挑衅:


  • 技术升级:CDH过往版本在大数据生态服务支持上相对有限,用户在应对新需求和数据处置惩罚场景变革时,需要自行扩展技术生态,这将涉及到技术复杂性、兼容性问题以及后续维护挑衅,增长了额外的时间和人力投入;
  • 数据安全与挑衅:随着CDH制止更新,其管理面的漏洞和各大数据组件的漏洞修复大概得不到Cloudera官方支持,导致未修复漏洞、遗留代码风险、合规性问题、依赖关系问题以及供应链攻击等安全风险大幅增长;
  • 体系维护挑衅:CDH免费版官方支持的结束意味着企业需要自行维护体系,管理面的漏洞和大数据组件的漏洞修复将无法得到官方支持,导致安全风险大幅增长,增长了运维压力。对于企业来说需要自行应对这些挑衅,比如招聘具备大数据维护能力的专业工程师或与第三方服务提供商合作,以便于后续的运维管理;
  • 合规性:在“十四五”规划中,国家对企业数字化转型升级提出了明白的政策要求,鼓励国内企业积极接纳国产技术和产物。然而,CDH大数据技术和生态体系在兼容国产软硬件方面难以满足合规性要求;
  • 本地化服务与稳定性挑衅:随着大数据技术在企业中的应用不断深化,对平台服务的一连性和稳定性保障需求日益凸显。本地化服务供应商能更好地理解企业需求和业务流程,提供定制化办理方案。然而,CDH在本地化服务方面的不足,倒霉于企业大数据平台的长期稳定运营;
  • ....
综上,CDH国产化替换已迫在眉睫,不仅关乎技术升级和数据安全,也涉及合规性和本地化服务的稳定性。企业需要积极寻求新的技术平台和合作伙伴,以确保在数字经济时代保持竞争力和业务一连性。

项目背景

为了应对数据量的日益增长,在早期,该企业构建了一个基于MPP技术架构的数据堆栈。但是在企业日常生产运行过程中,伴随着业务的连续发展以及金融科技底子能力的不断提升,各个信息体系数据量日渐增长,数据应用场景更加复杂化,对于数据的实效性实时性要求更高。
原有的数据堆栈架构对于实时场景与多模数据湖场景支持较差,而且应金融科技规划的重要举措,急需构建一个全行级的数据中台服务体系来满足数据应用、数据服务以及数据共享等中台场景,助力实现美满的客户管理及服务,连续产物创新,极致化的渠道服务体验,科学的决策管理,全面的数字化运营,不断促进企业数字化转型。
因此,该行于近两年着手计划创建一个统一的数据中台体系,数据类体系共享盘算和存储资源,利用统一的开发和管理工具,制止体系、功能、应用的重复性创建。

创建目的



  • 搭建数据中台,基于大数据分布式存储与盘算的能力,具有可界面化操纵,快速引入内部或外部、离线或实时的异构数据,并规范化地构建数据;
  • 可以通过规范建模开发数据,构建指标库,沉淀业务数据知识和数据资产,支持API等多种范例的数据服务;
  • 实现企业级业务能力复用和差别业务板块能力的联通和融合,核心是创建跨域融合数据+数据服务能力开放,从而达到反向业务赋能。

创建成果

基于以上项目背景及创建目的,星环助力该企业打造云原生数据湖+统一数据资产管理整体办理方案,完成了原有开源大数据平台替换,对接企业现有应用与其他平台,助力该企业整体的数字化创建,各项指标性能均超额完成预期目的实现数据处置惩罚效率的性能突破:


  • 基于 Rowkey 表(性能增强版)和 ArgoDB Sink API 实现数据高效实时入库,单表数据量达 14 亿+,每日增量千万级;
  • 接纳 物化视图 2.0快速加工增量数据供加速卑鄙查询,提升数据处置惩罚效率;
  • 核心实时报表有160多个登记簿场景报表,每个场景涉及1至10多个复杂SQL的串行查询。接纳Gateway 缓存 + Localfast 等技术,指标查询响应时间低至秒级(1-3秒),并发能力提升至 200+;

技术点实现介绍

Rowkey 表

Rowkey 表是一种优化的数据存储表,通过指定唯一主键来制止数据重复,专为进步数据写入和读取性能而计划。通过设置 rowkey,ArgoDB 实现了高性能的 UPSERT 能力,即在写入时能够直接定位数据行,制止全表扫描,实现快速的整行或部门列更新,确保数据的唯一性。
推出背景

在传统的数据存储方案中,读时归并(MOR)被广泛应用于实现快速数据写入的场景,其原理是通过将新数据追加到 Delta 文件中,而不是直接修改底子数据文件(Base 文件),从而大幅进步了写入速率,有效制止写入过程中对现有数据的直接修改,镌汰写入锁定和资源争用。
然而,在读取数据时,MOR 机制需要将 Base 文件和 Delta 文件举行归并。这种读时归并操纵会显著增长读取时的盘算开销,导致查询性能下降,尤其是在数据频繁变动和大量查询请求的场景下。这种高开销的归并操纵会拖慢体系响应时间,倒霉于实时数据访问需求。
为克服传统 MOR 机制的不足,在 ArgoDB 6.0 版本中,星环引入了 Rowkey 表(性能增强版),通过优化数据构造和管理方式,实现了快速写入和高效读取:


Rowkey 分层原理


  • 快速写入:通过 Slipstream 或 ArgoDB API 等方式将实时数据写入至 Rowkey 表,写入时仅将底子数据文件写入慢读层,无需立即举行去重和归并操纵,从而实实际时数据的极速写入;
  • 高效读取:体系后台主动实验归并操纵,将写入的底子数据文件归并去重后转移至快读层。这种分层机制确保读取时无需额外的归并处置惩罚,同时联合向量化引擎加速查询,大幅提升查询效率;
  • 同等性选择:根据业务需求选择差别的读取层来平衡数据同等性和读取性能。例如需要获取最新数据,可以选择从慢读层读取(接纳 MOR 策略,大概会有一些归并开销);如果需要读取速率优先,则可以选择从快读层读取,这样可以提供稳定的高性能查询,但数据的最新状态大概存在轻微的延迟,取决于后台归并操纵的策略设置。
   更多有关建表利用方法详见官方利用手册:Rowkey 表介绍  基于 API 实时入库

ArgoDB Data Sink是一种针对实时数据处置惩罚需求而计划的高效数据入库办理方案,通过 API 直接操纵物理文件的方式,联合微批处置惩罚的逻辑,为复杂的实时数据流和第三方数据源接入提供了高性能和灵活的数据写入方案。
推出背景

在实时数据处置惩罚场景中,数据源经常是分布式消息队列(如 Kafka),它能够支持高吞吐量的数据传输。传统的数据处置惩罚流程通常涉及将消息队列中的数据消费出来,颠末一系列的处置惩罚后,转换成 SQL 语句,然后通过数据库的 SQL 引擎实验,将数据最终写入到物理存储中。这种流程虽然通用,但在处置惩罚高吞吐量的实时数据时,SQL 引擎的转换和实验大概会成为瓶颈,导致数据处置惩罚的延迟。
别的,对某些第三方数据源而言,其数据格式大概并不适合直接转换为 SQL 语句,大概转换的实现较为复杂,甚至有数据损失的风险。在这种环境下,传统的数据处置惩罚流程大概无法满足需求。


为了办理这些问题,ArgoDB 推出了 ArgoDB Data Sink,它允许用户绕过传统的 SQL 引擎,直接将数据以 API 的形式写入到 ArgoDB 的物理文件中,并通过微批处置惩罚的方式举行数据写入,极大地提升了数据处置惩罚的效率和灵活性,适用于下述场景:


  • 高吞吐数据流:计划用于处置惩罚高速数据流,通过微批处置惩罚确保数据的快速稳定写入,非常适合实时或近实时的场景;
  • 复杂数据源接入:提供直接操纵物理文件的能力,简化了从复杂数据源到数据库的接入过程,特别是对于难以转换为SQL的数据源;
  • 实时分析:凭借高效的写入性能和微批处置惩罚特性,非常适用于需要快速处置惩罚并写入大量数据的实时或近实时数据分析场景,为上层应用提供实时的数据支持;
   更多示例代码以及利用注意事项详见官方利用手册:基于 API 实时入库  物化视图 2.0

全新的物化视图 2.0 突破了传统方案的语法限定和 MBO 改写限定,为复杂查询提供了更快、更精准的加速能力。
   视图(VIEW)用于生存复杂的 SQL 查询,以便简化后续操纵,但其本质仍是实验生存的 SQL 语句,因此无法提升查询性能。为了办理这一问题,ArgoDB 推出了物化视图 2.0,突破了传统物化视图的 MBO 改写限定和对复杂语法支持有限的问题,显著进步数据同步效率,为您提供更快速、更精准的数据查询加速能力。  对比项物化视图 2.0传统物化视图创建支持无穷制创建语法受限语法支持无穷制仅简单语法查询原理基于视图查询,体系主动替换为关联的物化表基于源表查询,体系基于 MBO 改写更新原理基于源表最新数据创建新物化表并主动关联,随后删除旧物化表原地更新(清空表+写入新数据)结果集匹配在编译前匹配视图的结果集与其对应的物化表在实验计划阶段匹配 SQL 查询语句的结果集与物化视图数据过期体现不会读到过期数据(主动转查基表)大概会读到过期数据   更多语法介绍以及利用注意事项详见官方利用手册:物化视图 2.0  Gateway 结果集缓存

   Quark Gateway 是连接客户端与 Quark 服务的一个中间件,可帮助平衡 Quark 服务的业务流量,便捷实现查询入口的高可用、自定义路由转发和负载平衡能力。  

Gateway 缓存
为提升查询性能,Quark Gateway 引入了结果集缓存功能,通过缓存常用查询结果,显著镌汰重复查询对 Quark 服务的影响,加速相同查询的响应速率。别的,Quark Gateway 还提供了 TTL(缓存过期时间)、定时革新等多种缓存更新策略,用户可根据详细任务需求灵活选择最优方案。核心上风:


  • 提升查询效率:对重复或常规的查询请求举行缓存,显著镌汰数据处置惩罚时间,提升查询响应速率;
  • 降低体系负担:有效减轻 Quark 服务的处置惩罚压力,镌汰对后端服务的重复查询,体系能够将更多资源集中用于处置惩罚更多更复杂的查询请求;
   有关如何通过其缓存功能,进一步提升查询性能的利用阐明请参考:Gateway 结果集缓存  

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

天津储鑫盛钢材现货供应商

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表