快速认识:数据库、数仓(数据仓库)、数据湖与数据运河 ...

打印 上一主题 下一主题

主题 1819|帖子 1819|积分 5457

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
数据技术核心概念对比表

概念核心定义核心功能数据特征典型技术/工具核心应用场景数据库布局化数据的「电子档案柜」,按固定 schema 存储和管理数据,支持高效读写和事件处理。实局势务处理(增删改查),确保数据一致性(ACID 特性),支持单表/关联查询。布局化数据(表格式),Schema 固定,数据高度洗濯。关系型:Oracle、MySQL、PostgreSQL、TiDB
非关系型:MongoDB、Redis
向量型:Milvus、Pinecone核心业务系统(订单管理、用户登录)、实时交易(如支付、库存扣减)。数据仓库面向分析的「数据实验室」,存储历史布局化数据,按主题构造,支持复杂查询和指标盘算。离线/准实时分析(OLAP),通过 ETL 洗濯整合多源数据,构建分析模型并输出报表/指标。布局化数据(表格式),Schema 稳定,数据经洗濯、整合、维度建模。云原生:Snowflake、BigQuery、StarRocks
传统:Hive、Teradata
湖仓一体:Delta Lake、Iceberg企业级报表(如贩卖日报)、历史趋势分析(用户留存率)、KPI 盘算(ROI 分析)。数据湖原始数据的「大熔炉」,存储多格式(布局化/半布局化/非布局化)的原始数据,保留数据原始形态。存储海量多模数据,支持数据探索、大数据分析和 AI 训练,按需处理(ELT)。多格式数据(表/JSON/日志/图片),Schema 灵活(读时定义),数据原始未洗濯。存储:S3、ADLS、OSS
管理:Delta Lake、Hudi
分析:Presto、Spark SQL机器学习训练(用户举动建模)、日志挖掘、非布局化数据归档(图片/视频存储)。数据运河数据流动的「管道系统」,负责在不同数据系统间实时/批量传输数据,实现数据集成与同步。数据抽取(CDC)、转换(ETL/ELT)、加载,保障跨系统数据流动的实时性和可靠性。不存储数据,仅传输,支持布局化/非布局化数据的流式或批量迁移。实时:Kafka、Debezium、Flink
批量:Sqoop、Flume
可视化:NiFi、Fivetran数据同步(跨机房备份)、实时流处理(金融风控)、多系统集成(电商订单同步至分析平台)。 一、数据库:精准的「数据档案柜」

回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

北冰洋以北

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表