详解 HBase 的架构和基本原理

登录 · 2025-1-7 11:19:27

一、基本架构

StoreFile：保存实际数据的物理文件，StoreFile 以 HFile 的格式 (KV) 存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile（HFile），数据在每个 StoreFile 中都是有序的
MemStore：写缓存，由于 HFile 中的数据要求是有序的，所以数据是先存储在 MemStore 中，排好序后，比及达刷写时机才会刷写到 HFile，每次刷写都会形成一个新的 HFile
WAL：由于数据要经 MemStore 排序后才气刷写到 HFile，但把数据保存在内存中会有很高的概率导致数据丢失，为了解决这个问题，数据会先写在一个叫做 Write-Ahead logfile 的文件中，然后再写入 MemStore 中。所以在系统出现故障的时候，数据可以通过这个日志文件重修

二、写流程原理

HBase 的读操作比写操作慢，且读写流程没有 master 到场

老版本：Zookeeper 中存储的是 -root- 表的位置信息，-root- 表存储的 meta 表的位置信息(防止 meta 表举行切分)
Client 先访问 Zookeeper，获取 hbase:meta 表位于哪个 Region Server
访问对应的 Region Server，获取 hbase:meta 表数据，根据写哀求的 namespace:table/rowkey 信息查询出目标数据位于哪个 Region Server 中的哪个 Region 中，并将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次快速访问
与目标表所在的 Region Server 举行通讯
将写哀求命令顺序写入（追加）到内存的 WAL，此时 wal 没有同步到 HDFS
将数据写入对应的 MemStore，数据会在 MemStore 举行排序
同步 wal 到 HDFS，若失败则回滚清空 MemStore 写入的数据
向客户端发送 ack，此时的写哀求已经完成
等达到 MemStore 的刷写时机后，将数据刷写到 HFile

三、MemStore Flush

MemStore Flush：刷写，将 Region 中存储在内存中的数据刷写到 HDFS 的磁盘中
Flush 时机：
- RegionServer 级别：
  - 当 RegionServer 中 memstore 的总大小达到 javaHeapSize × hbase.regionserver.global.memstore.size(默认 0.4) × hbase.regionserver.global.memstore.size.lower.limit(默认 0.95) 时，所有 region 会按照其所有 memstore 的大小顺序 (由大到小) 依次举行刷写。直到 RegionServer 中所有 memstore 的总大小减小到上述值以下；当 RegionServer 中 memstore 的总大小达到javaHeapsize × hbase.regionserver.global.memstore.size 时，会停止继续往所有的 memstore 写数据操作
  - 当 memstore 中最后一条数据的写入时间达到hbase.regionserver.optionalcacheflushinterval(默认 1h) 的值时，触发 memstore flush
  - 当 WAL 文件的数目超过 hbase.regionserver.max.logs，region 会按照时间顺序依次举行刷写，直到 WAL 文件数目减小到 hbase.regionserver.max.log 以下 (该属性名已经废弃，现无需手动设置，最大值为 32)，该参数用于防止生产上内存配置过大导致刷写时数据积累过大
- Region 级别：
  - 当某个 region 的 memstore 的大小达到了 hbase.hregion.memstore.flush.size(默认 128M) 时，这个 region 的所有 memstore 都会刷写
  - 当某个 region 的 memstore 的大小达到了 hbase.hregion.memstore.flush.size(默认 128M) × hbase.hregion.memstore.block.multiplier(默认 4)时，会停止继续往该 memstore 写数据

四、读流程原理

Client 先访问 Zookeeper，获取 hbase:meta 表位于哪个 Region Server
访问对应的 Region Server，获取 hbase:meta 表，根据读哀求的 namespace:table/rowkey 信息查询出目标数据位于哪个 Region Server 中的哪个 Region 中，并将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次访问
与目标 Region Server 举行通讯
分别在 BlockCache (读缓存)，MemStore 和 StoreFile (HFile) 中查询目标数据，并将查到的所有数据举行合并 (merge)。此处所有数据是指同一条数据的差别版本 (timestamp) 或者差别的类型 (Put/Delete)
将从 StoreFile 中查询到的数据块 (Block，HFile 数据存储单元，默认大小为 64KB) 缓存到 BlockCache
将合并后 timestamp 最大的数据返回给客户端

五、StoreFile Compaction

背景：由于 memstore 每次刷写都会生成一个新的 HFile，且同一个字段的差别版本 (timestamp) 和差别类型 (Put/Delete) 有可能会分布在差别的 HFile 中，因此查询时必要遍历所有的 HFile
为了减少 HFile 的个数，以及清理掉过期和删除的数据，HBase 会举行 StoreFile Compaction
StoreFile Compaction 分为两种：
- Minor Compaction：会将邻近的若干个较小的 HFile 合并成一个较大的 HFile，但不会清理过期和删除的数据，shell 命令为 compact
- Major Compaction：会将一个 Store 下的所有的 HFile 合并成一个大 HFile，而且会清理掉过期和删除的数据，shell 命令为 major_compact
Major Compaction 触发条件：
- HFile 存储时长达到 hbase.hregion.majorcompaction(默认 7 天) 的值时自动举行 Major Compaction，但生产上一样平常会关闭 (设置为 0)
- 当一个 store 中的 hfile 个数达到或超过 hbase.hstore.compactionThreshold(默认 3) 的值时自动举行 Major Compaction，或手动执行 compact 命令时也举行 Major Compaction

六、数据真正删除

触发数据删除的条件：MemStore Flush 和 Major Compaction
当同一个字段的差别版本数据都在内存中， MemStore Flush 会删除版本小的数据，只将最大版本的数据刷写到磁盘；当同一个字段的差别类型数据都在内存中， MemStore Flush 只会删除 put 类型的数据 (delete 类型可能还要限定磁盘中的同字段数据)；当同一个字段的差别版本数据在差别的文件，此时 MemStore Flush 不会删除数据
Major Compaction 会删除必要保留的版本数之外的所有过期版本和 delete 类型的数据

七、Region Split

默认情况下，每个 Table 起初只有一个 Region，随着数据的不停写入增长，Region 会触发自动举行拆分。刚拆分时，两个子 Region 都位于当前的 Region Server，但处于负载均衡的考虑，HMaster 有可能会将某个 Region 转移给其他的 Region Server
Region Split 触发时机：
- 0.94 版本之前：当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过 hbase.hregion.max.filesize(默认 10G)，该 Region 就会举行拆分
- 0.94 版本之后：当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过 min(R^2 × hbase.hregion.memstore.flush.size, hbase.hregion.max.filesize)，该 Region 就会举行拆分，其中 R 为当前 Region Server 中属于该 Table 的 region 个数
自动切分会造成数据倾斜，产生数据热点问题，在生产上一样平常不利用，而是在建表时先举行预分区，后续插入数据时轮询的插入到差别的分区
官方建议利用一个列族，避免切分全局 flush 时产生大量小文件

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

详解 HBase 的架构和基本原理

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云