ToB企服应用市场:ToB评测及商务社交产业平台

标题: 大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录多图 [打印本页]

作者: 农妇山泉一亩田 时间: 2024-10-14 16:19
标题: 大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录多图
点一下关注吧！！！非常感谢！！连续更新！！！

目前已经更新到了：

Hadoop（已更完）
HDFS（已更完）
MapReduce（已更完）
Hive（已更完）
Flume（已更完）
Sqoop（已更完）
Zookeeper（已更完）
HBase（已更完）
Redis （已更完）
Kafka（已更完）
Spark（已更完）
Flink（已更完）
ClickHouse（已更完）
Kudu（已更完）
Druid（已更完）
Kylin（正在更新…）

章节内容

上节我们完成了如下的内容：

构建Cube 按照日期、区域、产物、渠道
Cube 优化方案

增量 Cube

在大多数业务场景下，Hive中的数据处于不停增长的状态
为了支持在构建Cube，无需重复处理惩罚历史数据，引入增量构建功能

Segment

Kylin将Cube划分为多个Segment（对应就是HBase中的一个表）

一个Cube可能由1个或多个Segment组成，Segment是指定时间范围的Cube，可以明白为Cube的分区
Segment是针对源数据中的某个片段计算出来的Cube数据，代表一段时间内源数据的预计计算效果
每个Segment用起始时间和结束时间来标记
一个Segment的起始时间等于它之前Segment的结束前时间，它的结束时间等于它后面谁人Segment的起始时间
同一个Cube下差别的Segment除了背后的源数据差别之外，其他如布局定义、构建过程、优化方法、存储方式等完全雷同

Segment示意图

例如：以下为针对某个Cube的Segment

全量构建与增量构建

全量构建

在全量构建中：

Cube中存在唯逐一个Segment
每Segment没有分割时间的概念，即没有起始时间和结束时间
对于全量构建来说，每当需要更新Cube数据时，它不会区分历史数据和新加入的数据，即在构建时导入并处理惩罚全部的数据

增量构建

在增量构建中：

只会导入新Segment指定的时间区间内的原始数据，并只对这部分原始数据举行预计算

相互对比

全量构建与增量构建的Cube查询的方式对比：
全量构建Cube：

查询引擎只需要向存储引擎访问单个Segment所对应的数据，无需举行Segment之间的聚合
为了增强性能，单个Segment的数据也有可能被分片存储到引擎的多个分区上，查询引擎可能仍然需要对单个Segment差别分区的数据进一步聚合

增量构建Cube：

由于差别的时间的数据分布在差别的Segment中，查询引擎需要向存储引擎请求读取各个Segment的数据
增量构建的Cube上的查询会比全量构建的做更多的运行时聚合，通常来说增量构建的Cube上查询会比全量构建的Cube上的查询要慢一些

对于小数据量的Cube，大概常常需要全表更新的Cube，使用全量构建需要更少的运维精力，以少量的重复计算降低生产情况中的维护复杂度。
对于大数据量的Cube，例一个包含较长历史数据的Cube，如果每天更新，那么大量的资源是在用于重复计算，这个情况下可以考虑使用增量构建。
增量构建Cube过程

指定分割时间列

增量构建Cube的定义必须包含一个时间维度，用来分割差别的Segment，如许的维度称为分割时间列（Partition Date Column）。
增量构建过程