用户云卷云舒 发表于 2024-10-2 02:49:37

Clickhouse分布式表初体验

ClickHouse的分布式表是一种特殊类型的表,它允许你跨多个节点举行数据的查询和写入操纵。以下是创建分布式表的步调和案例:
1. 创建本地表:
   在集群的每个节点上创建一个本地表,可以使用`ReplicatedMergeTree`系列引擎来实现数据的复制。例如: 
CREATE TABLE city_local (
`fdate` Int64,
`city_code` Int32,
`city_name` String,
`total_cnt` Int64
) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/city_local', '{replica}')
PARTITION BY fdate
ORDER BY (fdate, city_code, city_name)
SETTINGS index_granularity = 8192, storage_policy = 'ssd_to_hdd';    这里`{shard}`和`{replica}`是集群配置中的占位符,用于指定分片和副本信息。
2. 创建分布式表:
   使用`Distributed`引擎创建一个分布式表,它不会存储数据,而是将查询和写入操纵代理到本地表。例如:
  
CREATE TABLE city_all ON CLUSTER ck_cluster_name AS city_local
ENGINE = Distributed(ck_cluster_name, 'test_db', 'city_local', rand());    这里`ck_cluster_name`是集群名称,`test_db`是数据库名称,`city_local`是本地表名称,`rand()`是一个分片键,用于数据的随机分布。
3. 插入数据:
   可以直接向分布式表插入数据,ClickHouse会将数据分发到对应的本地表。例如:
  
INSERT INTO city_all (fdate, city_code, city_name, total_cnt) VALUES (20210131, 4000, 'guangzhou', 420000);    数据会被写入到对应的本地表中。
4. 查询分布式表:
   查询分布式表时,ClickHouse会在所有分片上实行查询并将结果归并。例如:
 
SELECT * FROM city_all;    这会返回所有分片上的`city_all`表的数据。
5. 更新和删除操纵:
   分布式表本身不支持直接的`UPDATE`和`DELETE`操纵,这些操纵需要在本地表上实行。例如:
 
ALTER TABLE city_local ON CLUSTER ck_cluster_name UPDATE total_cnt = 3333 WHERE city_name = 'foshan';
ALTER TABLE city_local ON CLUSTER ck_cluster_name DELETE WHERE city_name = 'foshan';    这些操纵会应用到集群中的所有本地表。
6. 添加字段:
   可以为本地表添加新字段,并且这个变革会自动反映到分布式表上。例如:
ALTER TABLE city_local ON CLUSTER ck_cluster_name ADD COLUMN history Int32;    添加字段后,新插入的数据会包含这个新字段。
7. 删除表:
   删除分布式表或本地表时,需要指定集群名称。例如:
 
DROP TABLE city_all ON CLUSTER ck_cluster_name;
DROP TABLE city_local ON CLUSTER ck_cluster_name;    这会删除集群中的相应表。
以上步调和示例展示了怎样在ClickHouse中创建和使用分布式表。需要注意的是,分布式表的写入操纵默认是异步的,可能会在短时间内造成数据的不一致性。因此,在生产环境中,通常建议直接写入本地表,而从分布式表举行读取操纵。
 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: Clickhouse分布式表初体验