Clickhouse存储数据流程

2024-9-29 22:45:30

ClickHouse 是一个面向在线分析处置处罚 (OLAP) 的列式数据库管理系统，以其出色的性能著称，特别是在大数据场景下的高效查询能力。为了更好地理解 ClickHouse 的高性能存储和查询的关键，深入理解其底层存储机制和数据流处置处罚流程是很有须要的。
ClickHouse 的存储架构概述

ClickHouse 的焦点设计是 列式存储 和 分段压缩，其存储模子围绕着优化查询性能和压缩效率睁开。ClickHouse 是一个 LSM-Tree（Log-Structured Merge-Tree）风格的存储引擎，数据会先写入内存（雷同于 Write-Ahead Log），然后在后台渐渐归并到磁盘上。
ClickHouse 存储数据流程

当 ClickHouse 存储数据时，涉及以下几个主要阶段：

写入阶段：数据通过 SQL 写入或批量导入插入 ClickHouse 的表中。
数据落盘：数据起首写入内存，并暂存在内存中的缓冲区 (MemTable)，之后会周期性地将数据写入磁盘（即持久化），形成数据片段 (part)。
归并阶段：随着数据不绝被插入，ClickHouse 的后台进程会定期实行归并操作，将多个数据片段归并为一个更大的片段，淘汰数据碎片。
最终数据存储：数据经过压缩和归并后，最终存储在磁盘中。

接下来，我们深入分析每个步调及其底层机制，并联合源码分析。

1. 写入阶段

1.1 表的定义和分布式架构

在 ClickHouse 中，表的定义分为几种差别范例，常见的表引擎有 MergeTree、Log、Memory 等。其中，最常用的存储引擎是 MergeTree 系列引擎，它提供了分区和排序键的支持，适合大规模数据的查询和分析。
MergeTree 是最底子的存储引擎，全部高阶的引擎（如 ReplicatedMergeTree, AggregatingMergeTree 等）都继承自它。在实际应用中，数据会分布在多个分区（partitions）中，并且每个分区都会生成多个数据片段 (parts)。
1.2 数据写入流程

当数据通过 SQL 插入语句插入到 ClickHouse 时，起首发生以下操作：

数据解析：SQL 语句会起首被解析成抽象语法树（AST）。此时 ClickHouse 的 SQL 引擎会对语法进行解析和优化，确定写入的表和数据。
数据分配与排序：在 MergeTree 引擎下，ClickHouse 会按照表定义中的主键对数据进行排序。由于 MergeTree 是按主键进行排序的，数据起首需要根据定义的主键进行排序。

void MergeTreeData::insertBlock(const Block & block)
{
auto block_index = insertIntoMemoryTable(block);
writePartToDisk(block_index);
}

复制代码

内存缓冲区：数据会被放入内存中的一个缓冲区，称为 MemTable，等待写入磁盘。在 ClickHouse 中，MemTable 是数据插入流程的第一站。
1. // 插入数据到内存表（MemTable）
2. mem_table.emplace_back(block);
复制代码

MemTable 并不是立即写入磁盘，而是会先在内存中积累到一定量，或者根据后台线程的调理机制将数据批量写入磁盘。如许做可以淘汰频繁的磁盘写入，提升性能。

2. 数据落盘阶段

2.1 数据持久化到磁盘

当 MemTable 中的数据达到一定量或者在后台线程调理时，ClickHouse 会将 MemTable 的数据写入磁盘，形成 数据片段 (part)。

每个数据片段对应一个物理文件，这个文件存储了该数据片段中的全部列。
在写入时，数据被构造为 列式存储 格式，全部列的数据分别存储到差别的文件中。

列式存储的优势 在于只需要读取查询涉及的列，避免了读取不相关的数据，极大地提升了 I/O 性能。

void MergeTreeData::writePartToDisk(const Block & block)
{
// 按列进行数据写入，每一列的数据会写入不同的文件中
for (const auto & column : block.getColumns())
{
writeColumnToDisk(column);
}
}

复制代码

2.2 数据的压缩

在写入磁盘的同时，ClickHouse 使用压缩算法（如 LZ4, ZSTD）对列数据进行压缩。由于同一列的数据通常是高度相似的，因此列式存储能够实现极高的压缩比，进一步淘汰磁盘占用和 I/O 传输量。

压缩元数据：除了数据文件，ClickHouse 还会为每个数据片段生成压缩元数据文件，记录每一列的偏移量、数据块大小等信息，便于查询时快速定位。

// 使用 LZ4 压缩算法压缩数据
compressed_data = LZ4::compress(column_data);
writeToFile(compressed_data);

复制代码

通过列式存储和压缩，ClickHouse 的 I/O 性能得到了显著提升，尤其是在处置处罚大规模数据查询时。

3. 数据归并阶段

3.1 归并机制

随着越来越多的数据写入 ClickHouse，磁盘上会产生大量的小的 数据片段 (part)。为了淘汰磁盘碎片和进步查询效率，ClickHouse 的后台进程会周期性地实行 归并操作 (Merge)。
归并操作的关键在于将多个较小的数据片段归并成一个较大的片段，这个过程中可能涉及到重新排序和去重。具体的归并逻辑由 MergeTree 的后台线程完成。

void MergeTreeData::mergeParts(const std::vector<DataPart> & parts)
{
// 合并多个数据片段
for (const auto & part : parts)
{
mergeDataParts(part);
}
}

复制代码

归并后，ClickHouse 会删除原来的小数据片段，并保留归并后的较大片段，从而优化查询时的 I/O 性能。
3.2 去重

如果表定义了 唯一性束缚，归并时会根据主键或其他条件进行去重操作。此机制确保纵然在批量插入或分布式系统中多次写入同一数据，也能确保数据的唯一性和同等性。

// 如果表定义了去重条件，则在合并时执行去重操作
removeDuplicatesDuringMerge();

复制代码

4. 最终存储

归并操作完成后，数据最终会以优化后的列式格式存储在磁盘上。ClickHouse 的查询引擎在实行查询时，可以快速读取这些经过压缩和排序的数据，并使用分区和索引进一步提升查询速度。

分区和索引：在 MergeTree 中，可以为表定义分区键和索引，如许 ClickHouse 在查询时可以直接跳过不相关的数据片段，淘汰扫描的范围，从而加快查询速度。

5. 源码分析要点总结

写入到内存表 (MemTable)：数据起首会被插入到内存缓冲区中，避免频繁磁盘 I/O。通过 insertIntoMemoryTable 函数，将数据写入内存。
数据的持久化 (writePartToDisk)：当内存表积累到一定大小时，数据会被批量写入磁盘，形成数据片段。writeColumnToDisk 是关键函数，负责按列进行数据写入。
列式存储和压缩：在写入过程中，数据会被按列存储，并经过压缩算法处置处罚，极大淘汰磁盘占用。
后台归并 (mergeParts)：ClickHouse 的后台线程会定期实行归并操作，将多个数据片段归并为更大的片段，以提升查询性能，并在须要时进行去重。

总结

ClickHouse 的数据存储流程从写入内存表到落盘、压缩、归并，最终通过列式存储和分区索引优化查询效率。其架构充分使用了列式存储的优势，联合压缩技术、分区策略、主键排序等机制，确保了大规模数据存储和查询的高效性。通过对底层代码的分析，我们可以清楚地相识 ClickHouse 怎样实现其卓越的性能和可扩展性，尤其是在大数据分析场景下。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

Clickhouse存储数据流程

0 个回复

快速回复

楼主热帖

标签云