马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
及时离线一体架构(又称 及时数仓 或 Lambda 架构)是指将及时数据处置处罚和离线数据处置处罚集成在一个同一的数据架构中,来满足企业对低耽误及时分析和大规模汗青数据批处置处罚的需求。这个架构旨在同时处置处罚及时数据流和汗青静态数据,并将两者的效果融合,以提供同一的、及时的、完备的数据视图。
下面详细表明这种架构的焦点理念、技能特点和上风:
1. 及时离线一体架构的配景
在当代企业中,数据处置处罚通常分为两类:
- 离线处置处罚(批处置处罚):处置处罚汗青数据的批量任务,通常有大规模数据盘算、ETL 任务、逐日或每小时的报表天生等。这类任务的处置处罚速率相对较慢,但可以处置处罚巨大的数据量,通常必要高吞吐量。
- 及时处置处罚(流处置处罚):处置处罚最新的数据,通常用于监控
、告警、及时分析等必要快速相应的场景。及时处置处罚要求低耽误、数据希奇度高,但通常只能处置处罚相对较小的数据量。
在传统架构中,这两类处置处罚通常是分开举行的,由差别的体系或架构处置处罚。这导致了体系复杂性增长、数据耽误较大、体系运维困难等题目。因此,及时离线一体架构应运而生,旨在将及时和离线处置处罚归并在一个同一的架构中,办理这类分散架构中的不敷。
2. 及时离线一体架构的焦点理念
及时离线一体架构的焦点是同时支持及时数据流处置处罚和批处置处罚,并在终极用户查询时团结及时和离线效果,提供同一的视图。这种架构通常具有以下几个特点:
- 及时流处置处罚:体系可以或许汲取和处置处罚及时流式数据,举行数据的及时收罗、盘算和展示。常用的技能包罗 Apache Kafka、Flink、Spark Streaming和最新的Struct Streaming 等。
- 离线批处置处罚:体系定期对汗青数据举行批处置处罚,实行大规模盘算任务,通常用于构建完备的汗青数据视图或天生报表。常用的技能包罗 Apache Hadoop、Spark、Hive 等。
- 数据融合:将及时流处置处罚的效果与离线批处置处罚的效果融合,包管查询数据时既能得到最新的及时数据,又能获取完备的汗青数据。
- 高划一性与低耽误:架构必要在包管低耽误的同时,只管包管数据的高划一性。
3. 范例的及时离线一体架构计划
这种架构的实现通常可以通过以下几个条理的组件来构建:
3.1 数据输入层
- 数据收罗:及时数据通过消息队列体系(如 Apache Kafka、RabbitMQ)举行网络,离线数据则通过定时任务(如 Flume、Maxwell、Sqoop大概DataX)从数据源中抽取。
3.2 数据处置处罚层
- 及时处置处罚引擎:如 Apache Flink、Spark Streaming、Kafka Streams大概Struct Streaming ,用于处置处罚及时数据流,实行及时数据聚合、过滤、ETL 等任务,天生及时指标和效果。
- 批处置处罚引擎:如 Apache Spark、Hive,用于对大规模汗青数据举行批处置处罚分析和盘算,通常在夜间或定期举行,用于天生汗青数据报表或更新全局状态。
3.3 数据存储层
- 及时存储:如 Apache HBase、Cassandra、Redis 等,用于存储及时处置处罚引擎天生的中央效果或终极效果,包管低耽误的查询需求。
- 离线存储:如 Hadoop HDFS、Amazon S3(云情况)大概数据湖等,用于存储批处置处罚产生的效果数据,处置处罚汗青数据的大规模查询。
3.4 数据查询与展示层
- 同一查询接口:通常通过查询引擎(如 Presto、Apache Druid、Apache Impala)大概 OLAP 体系(如 ClickHouse)来支持同一的查询接口,用户可以透明地访问及时和离线数据。
- 数据展示和分析:通过 BI 工具(如 Tableau、Superset、Grafana)大概自界说的前端,用户可以查察及时和汗青数据的团结效果,举行数据分析和业务监控
。
4. 及时离线一体架构的技能栈
该架构涉及多个技能栈,详细可以分为以下几类:
- 消息队列:Kafka、Pulsar,用于及时数据流的传输。
- 流处置处罚引擎:Apache Flink、Spark Streaming、Kafka Streams,用于及时数据处置处罚。
- 批处置处罚引擎:Apache Hadoop、Apache Spark,用于大规模汗青数据处置处罚。
- 存储体系:
- 及时存储:HBase、Cassandra、Redis。
- 离线存储:HDFS、Amazon S3、Delta Lake、Iceberg、Hudi。
- 查询引擎:Presto、Druid、Impala、ClickHouse,用于同一查询接口的实现。
5. 及时离线一体架构的上风
- 低耽误分析:通过及时数据流处置处罚,用户可以在数据天生后几秒钟内就查察最新的数据分析效果,得当监控
和及时决议场景。
- 完备的数据视图:团结离线批处置处罚的汗青数据,用户可以访问更完备的全局数据,举行恒久趋势分析或复杂的数据发掘。
- 体系简化:将及时和离线处置处罚集成在一个架构中,淘汰了传统分离架构中的复杂度,低落了开发和运维的本钱。
- 高扩展性:这种架构可以横向扩展,以应对海量数据和高吞吐量的需求。
6. 及时离线一体架构的挑衅
- 划一性题目:及时数据和离线数据的处置处罚路径差别步,大概导致终极数据的划一性题目,必要通过复杂的机制(如 watermark、耽误处置处罚)来处置处罚。
- 高复杂性:这种架构集成了多个子体系,包罗流处置处罚、批处置处罚和存储,导致开发和运维的复杂性增长。
- 资源开销:由于同时运行及时和离线的处置处罚任务,体系的资源斲丧较大,必要精致化的资源管理和优化。
7. 范例应用场景
- 及时监控和告警:金融行业的风险监控、运营体系的非常检测、IoT 数据流处置处罚等。
- 业务及时分析:如电商平台的用户举动分析、点击流数据及时分析、广告投放监控。
- 用户画像与保举体系:团结汗青数据和及时举动数据,为用户提供个性化保举。
总结:
及时离线一体架构通过将及时和批处置处罚同一到一个架构下,使得企业可以同时满足低耽误的及时分析需求和大规模汗青数据分析需求,确保用户在同一的查询接口下可以或许访问到最新和最完备的数据。这种架构得当于对数据处置处罚及时性要求高且有大规模数据存储需求的场景,将来随着大数据技能的进一步发展,及时离线一体架构将成为数据处置处罚架构的紧张方向。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金 |