IT评测·应用市场-qidao123.com技术社区

标题: 数据集成的将来:一文搞懂 EtLT 新技术的崛起 [打印本页]

作者: 罪恶克星    时间: 2024-10-25 12:07
标题: 数据集成的将来:一文搞懂 EtLT 新技术的崛起
前瞻性技术通常具有创新性,并受到早期采用者的欢迎,从而提供一定的贸易价值。
说到数据集成,有人可能会质疑这有什么好讨论的——这不就是简单的 ETL 吗?从各种数据库中提取数据,举行转换,末了加载到差别的数据仓库中。

随着大数据、数据湖、及时数仓、大规模模型等的兴起,数据集成架构从数据仓库期间的ETL,发展到大数据期间的ELT,再到目前的EtLT阶段。
无论你是大数据工程师还是数据领域的专业人士,基于数据集成领域的近期技术变革和将来趋势都至关紧张。
ETL 架构

大多数数据领域的专家都熟悉 ETL 一词。在数据仓库的鼎盛时期,IBM DataStage、Informatica、Talend 和 Kettle 等 ETL 工具被广泛使用。
许多公司仍然依靠这些工具从各种数据库中提取数据、举行转换并将其加载到差别的数据仓库中举行报告和分析。
ETL 架构的长处和缺点如下:

ETL架构的长处

ETL 架构的缺点

ELT 架构

在大数据期间,ETL 在处理复杂数据源方面的局限性以及较差的及时性导致了 ETL 架构的变体 ELT 的出现。
企业开始采用来自各种数据仓库供应商的 ELT 工具,例如 Teradata 的 BETQ/Fastload/TPT 和 Hadoop Hive 的 Apache Sqoop。
ELT 架构的特点是直接将数据加载到数据仓库或大数据平台中,而无需举行复杂的转换,然后使用 SQL 或 H-SQL 来处理数据。
ELT架构的优缺点如下:

ELT 架构的优势

ELT 架构的缺点

EtLT 架构

随着数据湖和及时数据仓库的兴起,ELT 架构在及时处理和处理非布局化数据方面的局限性变得显而易见。
这导致了新架构 EtLT 的开发。
EtLT 通过整合来自 SaaS、Binlog 和云组件等来源的及时数据提取,以及在将数据加载到目标存储之前实行小规模转换来增强 ELT。
这种演变刺激了全球专业公司的发展,包括 StreamSets、Attunity(被 Qlik 收购)、Fivetran、WhaleStudio 和 Apache 基金会的 SeaTunnel
以下是EtLT架构的长处和缺点:

EtLT架构的长处

EtLT架构的缺点

近年来,随着数据、及时数据仓库和大规模模型的增长,EtLT 架构逐渐成为数据集成领域的标准
在这个总体趋势中,有四个差别的方向
离线数据同步

数据集成的这一基本要求对于每个企业都至关紧张,但其性能在差别的架构中有所差别。通常,ETL 架构工具的性能低于 ELT 和 EtLT 工具,尤其是在处理大规模数据时。
及时数据同步随着及时数据仓库和数据湖的普及,及时数据同步已成为每个企业数据集成策略中的一个紧张考虑因素。越来越多的公司正在采用及时同步解决方案。
批处理流式集成

当代数据集成引擎专为无缝集成批处理和流式工作流程而计划,可提供针对差别企业需求而定制的增强同步方法。
相比之下,传统引擎通常优先考虑及时或离线场景,这通常会导致批量数据同步性能不佳。批处理和流式集成的统一方法在需要高效数据初始化和混合批处理流式环境的场景中表现精彩。
云原生

国际数据集成工具以激进的策略引领该领域,采用按量付费的计费模式,使企业能够快速获取和释放每个任务的响应式计算资源,构成核心竞争力和利润来源。
数据类型和常见用例


作为每个集成工具的基础,该功能现已超越标准文本文件,包括 Parquet 和 ORC 等格式,反映了数据收集标准不停发展。
操作和监控

在数据集成中,运维与监控是至关紧张的功能,高效的运维与监控对于减少系统运维与开发职员在处理数据问题时的工作量具有至关紧张的作用。

流量控制

当代数据集成工具通过各种方法管理流量,包括任务并行、单任务 JDBC 并行以及控制从单个 JDBC 源读取的数据量。这可确保对源系统的干扰最小。
任务和表级指标

任务和表级别的统计数据对于引导整个数据集成过程的操作和维护职员至关紧张。
增量试运行

随着对及时数据、SaaS 和轻量级转换的支持,直接实行复杂的数据流变得更具挑战性。因此,先辈的公司已经实行了增量试运行功能,以有用地简化开发和运营。
表变革事件捕捉

这一及时数据处理领域的新兴功能,让用户能够在源系统内的表发生变革时以预定义的方式触发操作或警报,从而增强及时数据操作的稳固性。
批流集成调度

及时 CDC 和流处理之后,与传统批量数据仓库任务的集成变得必不可少。然而,在不中断数据流操作的环境下确保批量数据的正确启动仍然是一项庞大挑战,凸显了集成和批流调度的相互关联性。
智能诊断、调优和资源优化

在集群和云原生环境中,优化资源使用率和提供正确的问题解决方案是领先数据集成公司关注的关键问题。
然而,在这个领域开发可用于生产的智能应用程序可能需要大量的时间和精力。
主要功能

虽然数据集成包含许多基本功能,但以下几点至关紧张。缺乏这些功能可能会对企业运营产生深远影响。

完整/增量同步

完整和增量同步已成为每个数据集成工具的必备功能。从完整模式到增量模式的自动转换在中小型供应商中仍然不常见,通常需要用户手动切换。
变更数据捕捉 (CDC)

随着企业对及时数据的需求不停增长,CDC 已成为数据集成中的关键竞争优势。支持跨多个数据源的 CDC 并有用管理其需求和对源数据库的影响的本领通常决定了数据集成工具的核心竞争力。
数据源多样性

支持多种数据源的本领加剧了数据集成工具之间的竞争。为用户现有的系统数据源提供更好的支持通常会在贸易竞争中获得战略优势。
检查点恢复

及时和批量数据集成以支持检查点恢复的本领对于许多场景中快速从错误中恢复以及在特殊环境下促进恢复至关紧张。但是,目前只有有限的工具支持此功能。
并发性和速度限制

在数据集成中,工具必须处理高并发性以获得最佳速度,并在操作较慢时有用减轻对源系统的影响。此功能已成为当代集成工具的必备功能。
多表同步和全库迁移

该功能不仅包括用户友好的选择界面,还包括在引擎级别重用 JDBC 连接或现有集成任务的本领。这种方法优化了资源使用率并加速了数据集成过程。
性能优化

除了核心功能之外,性能通常还决定着用户是否需要额外的资源,以及与数据集成工具相关的硬件和云成本是否可控。
然而,目前认为实现极致性能不那么紧张,通常排在界面支持和核心功能之后,作为第三考虑因素。

趋势

将来几年,EtLT架构的广泛采用将为新的数据集成场景铺平蹊径。

从大趋势来看,全球数据的指数级增长,加上大规模模型的出现和各种应用的数据引擎的多样化,使得及时数据集成成为数据格局的最前沿。
如果说数据是新能源,那么数据集成绩是至关紧张的管道,数据引擎的普及,意味着对管道效率、数据源兼容性、可用性的要求越来越高。
本文由 白鲸开源 提供发布支持!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4