大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTr ...

铁佛  金牌会员 | 2024-9-22 11:17:05 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 822|帖子 822|积分 2466

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:



  • Hadoop(已更完)
  • HDFS(已更完)
  • MapReduce(已更完)
  • Hive(已更完)
  • Flume(已更完)
  • Sqoop(已更完)
  • Zookeeper(已更完)
  • HBase(已更完)
  • Redis (已更完)
  • Kafka(已更完)
  • Spark(已更完)
  • Flink(已更完)
  • ClickHouse(正在更新···)
章节内容

上节我们完成了如下的内容:


  • MergeTree 实测案例
  • ReplacingMergeTree
  • SummingMergeTree

CollapsingMergeTree

简介

以增代删。
Yandex官方给出的介绍是CollapsingMergeTree会异步的删除(折叠)除了特定列的 Sign 有 1 和 -1 的值以外,其余全部字段的值都相称的成对的行。没有成对的行会被保留,该引擎可以明显的降低存储量并进步SELECT查询效率。
CollapsingMergeTree引擎有个状态列Sign,这个值为1为“状态”行,-1为“取消”行,对于数据只关心状态列为状态的数据,不关心状态列为取消的数据。
案例

创建新表

  1. CREATE TABLE cmt_tab (
  2.   id UInt32,
  3.   sign Int8,
  4.   date Date,
  5.   name String,
  6.   point String
  7. )
  8. ENGINE = CollapsingMergeTree(sign)
  9. PARTITION BY toYYYYMM(date)
  10. ORDER BY (name, id)
  11. SAMPLE BY id;
复制代码
实行结果如下图:

插入数据

  1. INSERT INTO cmt_tab (id, sign, date, name, point) VALUES
  2. (1, 1, '2024-01-01', 'Alice', '10'),
  3. (2, 1, '2024-01-01', 'Bob', '15'),
  4. (3, 1, '2024-01-02', 'Charlie', '20'),
  5. (4, 1, '2024-01-02', 'David', '25'),
  6. (5, 1, '2024-01-03', 'Eve', '30');
  7. -- Mark Alice's row as deleted
  8. -- Mark Bob's row as deleted
  9. INSERT INTO cmt_tab (id, sign, date, name, point) VALUES
  10. (1, -1, '2024-01-01', 'Alice', '10'),
  11. (2, -1, '2024-01-01', 'Bob', '15');
  12. -- Insert Alice's updated row
  13. -- Insert Bob's updated row
  14. INSERT INTO cmt_tab (id, sign, date, name, point) VALUES
  15. (1, 1, '2024-01-01', 'Alice', '12'),
  16. (2, 1, '2024-01-01', 'Bob', '18');
复制代码
运行结果如下所示:

optimize

  1. OPTIMIZE TABLE cmt_tab;
  2. SELECT
  3.   *
  4. FROM
  5.   cmt_tab;
复制代码
实行结果如下图所示:

使用场景

大数据中对于数据更新很难做到,好比统计一个网站或TV的用户数,更多场景都是选择用记载每个点的数据,再对数据举行聚合查询。而ClickHouse通过CollapsingMergeTree就可以实现,使得CollapsingMergeTreeTree大部分用于OLAP场景。
VersionedCollapsingMergeTree

这个引擎和CollapsingMergeTree差不多,只是对CollapsingMergeTree引擎加了一个版本,好比可以实用于非实时的在线统计,统计每个节点用户在线的业务。
其他数据源

端口辩论

我们的ClickHouse和Hadoop的9000端口辩论了,看大家是更改ClickHouse的端口,照旧Hadoop的端口。
我这里选择修改ClickHouse的端口,从9000到9001。
不过假如你不做HDFS的相关实验,这块辩论不管直接跳过就好。
我这里选择修改 ClickHouse,我已经集群都修改完毕了,所以我毗连方式修改为:
  1. clickhouse-client -m --host h121.wzk.icu --port 9001 --user default --password clickhouse@wzk.icu
复制代码
HDFS

该引擎提供了集成了Apache Hadoop生态系统通过允许管理数据HDFS通过ClickHouse,这个引擎是相似的到文件和URL引擎,但提供Hadoop特定的功能。
用途介绍

ENGINE = HDFS(URI, format)
该URI参数是HDFS中整个文件的URI,该format参数指定一种可用的文件格式。实行SELECT查询时,格式必须支持输入。
示例1

添加新表

设置 HDFS_ENGINE_TABLE 表:
  1. CREATE TABLE hdfs_engine_table(
  2.   name String,
  3.   value UInt32
  4. ) ENGINE = HDFS('hdfs://h121.wzk.icu:9000/clickhouse', 'TSV');
复制代码
运行之后的截图为:

插入数据

  1. INSERT INTO hdfs_engine_table VALUES('one', 1), ('two', 2), ('three', 3);
复制代码
运行之后截图为:

查询数据

  1. SELECT
  2.   *
  3. FROM
  4.   hdfs_engine_table;
复制代码
运行之后的截图为:

HDFS 数据检察


实行细节



  • 读取和写入可以并行
  • 不支持:ALTER、SELECT SAMPLE、索引、复制
MySQL

介绍

MySQL 引擎可以对存储在远程MySQL服务器上的数据实行SELECT查询。
调用参数



  • host:port MySQL服务器地址
  • database 数据库名称
  • table 表名称
  • user 数据库用户
  • password 用户暗码
  • replace_query 将INSERT INTO查询是否替换为REPLACE_INFO的标志,假如REPLACE_QUERY=1则替换查询
  • on_duplicate_clause 将ON DUPLCATE KEY UPDATE 表达式添加到INSERT查询语句中。
示例

创建新表

  1. CREATE TABLE mysql_table2 (
  2.   `id` UInt32,
  3.   `name` String,
  4.   `age` UInt32
  5. ) ENGINE = MySQL('h122.wzk.icu:3306', 'clickhouse', 'mysql_table2', 'hive', 'hive@wzk.icu')
复制代码
实行结果如下图所示:

数据库配置

在数据库中,我们要创建好对应的数据库和表:

插入数据

  1. INSERT INTO mysql_table2 VALUES(1, 'wzk', 18);
  2. INSERT INTO mysql_table2 VALUES(2, 'icu', 18);
复制代码
查询数据

  1. SELECT
  2.   *
  3. FROM
  4.   mysql_table2;
复制代码
运行之后截图:

Kafka

Apache Kafka 是一个分布式流处理平台,广泛用于构建实时数据管道和流应用。它可以或许高效地处理大量的实时数据流,常用于日志收集、事件监控、实时分析等场景。ClickHouse 提供了专门的 Kafka 引擎,使其可以或许直接从 Kafka 中读取数据,实实际时数据流的处理与分析。
创建新表

  1. CREATE TABLE kafka_events
  2. (
  3.     `timestamp` DateTime,
  4.     `event_type` String,
  5.     `user_id` UInt64,
  6.     `event_data` String
  7. )
  8. ENGINE = Kafka
  9. SETTINGS
  10.     kafka_broker_list = 'broker1:9092,broker2:9092',
  11.     kafka_topic_list = 'events_topic',
  12.     kafka_group_name = 'clickhouse_group',
  13.     kafka_format = 'JSONEachRow',
  14.     kafka_num_consumers = 1;
复制代码
创建目标表并设置 Materialized View
为了将 Kafka 中的数据持久化到 ClickHouse 的表中,通常会创建一个目标表,并通过 Materialized View 实现主动插入。
  1. CREATE TABLE events (
  2.     `timestamp` DateTime,
  3.     `event_type` String,
  4.     `user_id` UInt64,
  5.     `event_data` String
  6. ) ENGINE = MergeTree()
  7. ORDER BY timestamp;
  8. CREATE MATERIALIZED VIEW kafka_to_events
  9. TO events
  10. AS SELECT * FROM kafka_events;
复制代码
插入数据

  1. INSERT INTO events SELECT * FROM kafka_events;
复制代码
应用场景



  • 实时日志分析:通过 Kafka 收集应用日志,ClickHouse 实时消费并分析日志数据,支持快速故障排查和性能监控。
  • 事件驱动的业务分析:实时跟踪用户举动事件,举行实时的用户举动分析和推荐系统。
  • 实时监控与报警:将监控数据流入 Kafka,ClickHouse 处理并天生实时报警指标。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

铁佛

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表