大数据：及时大数据和离线大数据

道家人 · 2025-1-14 02:53:40

一及时大数据的先容及应用场景

        及时大数据主要是对及时数据流举行处置惩罚和分析，数据在生成后几乎立刻被处置惩罚，以支持快速决策。
核心特性

        低耽误：数据在毫秒或秒级别内处置惩罚，几乎及时返回结果。
        连续流式处置惩罚：数据像流一样不停到达并被处置惩罚，而不是分批次处置惩罚。
        及时反馈：能够及时相应业务需求，如及时告警、推荐、监控等。
应用场景

        及时推荐体系：如电商、交际媒体等，根据用户行为举行个性化推荐。
        及时监控：网络安全体系及时监控流量、检测非常行为。
        金融生意业务体系：股票生意业务市场的及时数据分析和决策。
及时大数据架构

        数据摄取层：数据通过 Kafka、Kinesis 等进入体系。
        流处置惩罚层：通过 Flink、Kafka Streams 举行数据处置惩罚。
        存储与分析层：Redis、Druid 等用于存储、聚合和查询及时数据。
        可视化与告警层：使用 Kibana、Grafana 实现数据展示和告警。
二及时大数据的技术实现

1.数据摄取层
        Apache Kafka：高吞吐量的分布式消息体系，常用于处置惩罚海量及时数据流。
        Amazon Kinesis：类似于 Kafka 的云端服务，专门用于及时数据流的网络和处置惩罚。
2.流式处置惩罚框架
        Apache Flink：支持事件时间、状态管理和复杂的流处置惩罚，适合处置惩罚有状态的复杂流式任务。
        Apache Spark Streaming：基于微批次模型处置惩罚及时数据，适合处置惩罚耽误容忍度较高的场景。
Kafka Streams：内置于 Kafka 的轻量级流式处置惩罚库，适用于小规模的流式处置惩罚应用。
3.存储与分析
        Redis：常用于缓存和快速读取及时处置惩罚后的数据。
        Elasticsearch：用于存储和快速查询及时日志或指标数据，结合 Kibana 举行可视化。
        Apache Druid：专门为及时数据分析设计的数据库，能够高效处置惩罚海量及时数据。
三离线大数据的先容及应用场景

        离线大数据处置惩罚针对的是批量数据，数据会被定期批量网络和处置惩罚，通常耽误较高，但处置惩罚的数据量巨大。离线处置惩罚更适合长时间积累的数据分析和深度发掘。
核心特性

        高吞吐量：能够处置惩罚大量的数据，通常是 TB 乃至 PB 级别的数据。
        批处置惩罚模式：数据按照批次处置惩罚，时间间隔可以是分钟、小时、天乃至更长。
        高容忍耽误：离线处置惩罚的耽误容忍度高，适合需要深度分析、建模的场景。
应用场景

        日志分析：分析长时间网络的服务器或应用日志，生成报表或趋势分析。
        离线推荐：基于用户汗青行为，举行离线计算和推荐模型练习。
        企业数据堆栈：企业级数据分析、报表生成和汗青数据发掘。
离线大数据架构

        数据存储层：使用 HDFS 或 S3 来存储批量数据。
        计算层：使用 Hadoop、Spark 举行批处置惩罚任务。
        查询与分析层：结合 Hive、Presto、BigQuery 等工具举行查询。
        调度与管理层：通过 Oozie 或 Airflow 调度任务。
四离线大数据的技术实现

1.数据摄取与存储
        HDFS (Hadoop Distributed File System)：用于存储海量的批量数据，支持高容错和扩展性。
        Amazon S3：云端分布式存储，用于存储大规模的非结构化数据。
2.批处置惩罚框架
        Apache Hadoop (MapReduce)：经典的离线批处置惩罚框架，支持对大数据集的分布式处置惩罚，常用于日志分析、数据聚合等任务。
        Apache Spark：基于内存计算的分布式计算框架，比 Hadoop 快许多，支持批处置惩罚和流处置惩罚，适合大规模数据分析和呆板学习任务。
3.数据堆栈与查询引擎
        Apache Hive：构建在 Hadoop 之上的数据堆栈工具，支持 SQL 查询，用于管理和分析大规模数据。
        Presto：高性能的分布式 SQL 查询引擎，支持对多种数据源的批量查询。
        Google BigQuery：云原生的 SQL 数据堆栈，能够快速查询和分析海量离线数据。
4.调度与管理
        Apache Oozie：工作流调度体系，主要用于调度 Hadoop 作业。
        Airflow：灵活的工作流调度工具，能够调度不同类型的数据处置惩罚作业（如 Spark、Hive）。
五两者的对比

特性	及时大数据	离线大数据
处置惩罚模式	流式处置惩罚（数据及时到达即处置惩罚）	批处置惩罚（按批次定期处置惩罚）
耽误	毫秒到秒级	分钟到小时级乃至更长
数据规模	通常处置惩罚较少的单次数据流，但连续不停	通常处置惩罚海量的汗青数据
处置惩罚框架	Flink、Spark Streaming、Kafka Streams	Hadoop (MapReduce)、Spark
存储体系	Redis、Elasticsearch、Druid	HDFS、S3、数据堆栈（Hive、BigQuery）
应用场景	及时监控、及时推荐、及时告警	汗青数据分析、离线推荐、日志分析、呆板学习

六 Lambda 架构

        在实际大数据体系中，许多场景需要同时处置惩罚及时和离线数据，Lambda 架构是一种典型的设计模式，它结合了及时和离线处置惩罚的上风。
        批处置惩罚层：使用离线数据举行完备的数据处置惩罚和分析，确保数据的全面性和精确性。
        速度层：使用及时数据流举行快速处置惩罚，确保及时相应需求。
        合并层：终极的查询和分析结合及时数据和离线数据的结果。
        这种架构可以有效地均衡及时性和数据完备性，常用于需要低耽误和高准确性的场景，如推荐体系和监控体系。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

大数据：及时大数据和离线大数据

0 个回复

快速回复

楼主热帖

标签云