HBase基础知识分享(一)

打印 上一主题 下一主题

主题 1788|帖子 1788|积分 5364

写在前面

今天来学习Hbase部分的知识!
Zookeeper的ZAB协议

ZAB(Zookeeper Atomic Broadcast)协议是Zookeeper的核心协议之一,用于保证集群中数据的一致性、次序性和容错性。它包括以下几个关键阶段:

  • Leader选举:选举出一个Leader节点来协调集群内的操纵。
  • 事务提案:客户端提交的事务会被提案并传播到集群中。
  • 投票与提交:集群中的所有节点投票确认事务,然后提交。
ZAB协议的设计灵感来自于Paxos协议,但简化了许多步骤,使其更加适合Zookeeper这种主要用作协调服务的分布式系统。
ZAB协议的特点


  • 保证数据一致性。
  • 通过Leader节点保证次序性。
  • 容错性强,能应对节点故障或网络分区。
  • 为分布式系统提供强一致性,确保高可用性和稳定性。
HBase的特点


  • 大规模:支持百万级别的列和行,适合存储海量数据。
  • 面向列族:数据存储按列族进行分组,提供灵活的存储和权限控制。
  • 希罕:只对有数据的列分配存储空间,节省存储。
  • 无模式(No Schema):每行可以有差别的列,不强制列的定义。
  • 数据多版本:支持多版本数据,每个单元格有多个版本,可以根据时间戳查询差别版本。
  • 数据单一类型:所有数据都以字节数组存储,无类型区分。
HBase的三维有序结构

HBase的数据按 行键、列族和时间戳 三个维度进行排序:

  • 行键(Row Key):数据按行键的字典次序排序,行键是HBase存储的基本粒度。
  • 列族(Column Family):数据按列族进行分组,同一个列族内的数据按列名排序。
  • 时间戳(Timestamp):同一个单元格内的数据可以有多个版本,按时间戳的次序排序,支持多版本数据。
这个设计使得HBase在处理惩罚大数据时具有高效的查询、存储和写入能力。
如何定位到 HBase 的 Cell


  • 行键(Row Key):HBase中的数据按行键次序存储,因此要查询某个 Cell,需要知道它的行键。通过查询行键,可以定位到包含该行数据的 RegionServer
  • 列族(Column Family)和列名(Column Qualifier):一旦确定了目的行,下一步是确定目的列。HBase按列族存储数据,每个列族包含多个列,查询时需要指定列族和列名。
  • 时间戳(Timestamp):HBase中的每个单元格按时间戳版本排序。每次写入时,HBase会自动为每个单元格分配一个时间戳。假如没有显式指定时间戳,默认利用当前时间戳。
通过 行键、列族、列名和时间戳,可以精确地查询到一个 Cell
什么是 Region?通过 RK 定位到 Region


  • Region 是HBase存储数据的最小单元,负责存储一个连续范围的行数据。
  • Region 根据行键范围划分,HBase会根据行键自动将数据划分到差别的 Region
  • 通过 行键(Row Key),HBase可以定位到某个 Region。每个 Region 都有一个行键范围,当查询时,HBase会根据行键判断它所属的Region。
  • HBase通过 ZookeeperMaster节点 来管理Region和RegionServer的分配。查询时,客户端通过行键查询Zookeeper或Master,得到对应的Region和RegionServer信息。
HBase的数据模型


  • RowKey:用于唯一标识一行数据,是HBase查询数据的主键。

    • 支持通过单个RowKey、RowKey范围或正则表达式等方式查询。
    • RowKey按字典次序存储,最大长度64KB,通常应用中为10~100字节。

  • 列簇(Column Family)

    • 列簇是表的结构部分,表创建时必须指定至少一个列簇。
    • 列簇内的数据按列名排序。
    • HBase中的数据存储、权限控制和版本控制都是按列簇进行的。

  • 时间戳

    • 每条数据都会记录时间戳,支持多版本数据存储。
    • 按时间戳倒序存储,获取数据时默认返回最新版本。
    • 设置TTL(Time to Live)时,HBase会根据时间戳自动删除逾期数据。

  • Cell

    • RowKeyColumn(列簇+列名)Version(时间戳) 唯一标识。
    • HBase中的数据都以字节数组情势存储。

HBase的架构及读写流程

HBase的架构主要包括以下组件:

  • Client:提交读写请求。
  • HMaster:负责管理Region和RegionServer的分配。
  • RegionServer:负责存储和处理惩罚Region数据。
  • Zookeeper:协调HBase集群中的节点,维护元数据。
HBase读写流程:

  • 写入流程:客户端请求写入数据,HBase首先将数据写入 MemStore,然后异步刷写到HFile中。当数据到达阈值时,会触发Region的分裂。
  • 读取流程:客户端请求读取数据,HBase根据行键定位到对应的RegionServer,并从MemStore或HFile中读取数据。

常用的HBase比较器与过滤器

比较器(Comparator)


  • BinaryComparator:按字节索引次序比较字节数组。
  • BinaryPrefixComparator:比较字节数组的前缀是否匹配。
  • RegexStringComparator:利用正则表达式比较字符串。
  • SubstringComparator:判断一个子串是否存在于目的字符串中。


  • HBase有哪些常用的过滤器?
单列值过滤器:SingleColumnValueFilter
SingleColumnValueFilter会返回满足条件的cell所在行的所有cell的值(即会返回一行数据)
通过SingleColumnValueFilter与查询文科班所有学生信息
  1.     @Test
  2.     // 通过SingleColumnValueFilter与查询文科班所有学生信息
  3.     public void RegexStringComparatorFilter() throws IOException {
  4.         Table students = conn.getTable(TableName.valueOf("students"));
  5.         SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
  6.                 "info".getBytes(),
  7.                 "clazz".getBytes(),
  8.                 CompareFilter.CompareOp.EQUAL,
  9.                 new RegexStringComparator("^文科.*")
  10.         );
  11.         Scan scan = new Scan();
  12.         scan.setFilter(singleColumnValueFilter);
  13.         ResultScanner scanner = students.getScanner(scan);
  14.         Result rs = scanner.next();
  15.         while (rs != null) {
  16.             String id = Bytes.toString(rs.getRow());
  17.             String name = Bytes.toString(rs.getValue("info".getBytes(), "name".getBytes()));
  18.             int age = Bytes.toInt(rs.getValue("info".getBytes(), "age".getBytes()));
  19.             String gender = Bytes.toString(rs.getValue("info".getBytes(), "gender".getBytes()));
  20.             String clazz = Bytes.toString(rs.getValue("info".getBytes(), "clazz".getBytes()));
  21.             System.out.println(id + "\t" + name + "\t" + age + "\t" + gender + "\t" + clazz + "\t");
  22.             rs = scanner.next();
  23.         }
  24.     }
复制代码
列值清除过滤器:SingleColumnValueExcludeFilter
与SingleColumnValueFilter相反,会清除掉指定的列,其他的列全部返回
通过SingleColumnValueExcludeFilter与BinaryComparator查询文科一班所有学生信息,最终不返回clazz列
  1.     @Test
  2.     // 通过SingleColumnValueExcludeFilter与BinaryComparator查询文科一班所有学生信息,最终不返回clazz列
  3.     public void RegexStringComparatorExcludeFilter() throws IOException {
  4.         Table students = conn.getTable(TableName.valueOf("students"));
  5.         SingleColumnValueExcludeFilter singleColumnValueExcludeFilter = new SingleColumnValueExcludeFilter(
  6.                 "info".getBytes(),
  7.                 "clazz".getBytes(),
  8.                 CompareFilter.CompareOp.EQUAL,
  9.                 new BinaryComparator("文科一班".getBytes())
  10.         );
  11.         Scan scan = new Scan();
  12.         scan.setFilter(singleColumnValueExcludeFilter);
  13.         ResultScanner scanner = students.getScanner(scan);
  14.         Result rs = scanner.next();
  15.         while (rs != null) {
  16.             String id = Bytes.toString(rs.getRow());
  17.             String name = Bytes.toString(rs.getValue("info".getBytes(), "name".getBytes()));
  18.             int age = Bytes.toInt(rs.getValue("info".getBytes(), "age".getBytes()));
  19.             String gender = Bytes.toString(rs.getValue("info".getBytes(), "gender".getBytes()));
  20.             // clazz列为空
  21.             String clazz = Bytes.toString(rs.getValue("info".getBytes(), "clazz".getBytes()));
  22.             System.out.println(id + "\t" + name + "\t" + age + "\t" + gender + "\t" + clazz + "\t");
  23.             rs = scanner.next();
  24.         }
  25.     }
复制代码
rowkey前缀过滤器:PrefixFilter
通过PrefixFilter查询以150010008开头的所有前缀的rowkey
  1.     @Test
  2.     // 通过PrefixFilter查询以150010008开头的所有前缀的rowkey
  3.     public void PrefixFilterFilter() throws IOException {
  4.         Table students = conn.getTable(TableName.valueOf("students"));
  5.         PrefixFilter prefixFilter = new PrefixFilter("150010008".getBytes());
  6.         Scan scan = new Scan();
  7.         scan.setFilter(prefixFilter);
  8.         ResultScanner scanner = students.getScanner(scan);
  9.         Result rs = scanner.next();
  10.         while (rs != null) {
  11.             String id = Bytes.toString(rs.getRow());
  12.             String name = Bytes.toString(rs.getValue("info".getBytes(), "name".getBytes()));
  13.             int age = Bytes.toInt(rs.getValue("info".getBytes(), "age".getBytes()));
  14.             String gender = Bytes.toString(rs.getValue("info".getBytes(), "gender".getBytes()));
  15.             // clazz列为空
  16.             String clazz = Bytes.toString(rs.getValue("info".getBytes(), "clazz".getBytes()));
  17.             System.out.println(id + "\t" + name + "\t" + age + "\t" + gender + "\t" + clazz + "\t");
  18.             rs = scanner.next();
  19.         }
  20.     }
复制代码
分页过滤器PageFilter
通过PageFilter查询第三页的数据,每页10条
利用PageFilter分页效率比较低,每次都需要扫描前面的数据,直到扫描到所需要查的数据
可设计一个合理的rowkey来实现分页需求
  1.     @Test
  2.     // 通过PageFilter查询第三页的数据,每页10条
  3.     public void PageFilter() throws IOException {
  4.         Table students = conn.getTable(TableName.valueOf("students"));
  5.         int PageNum = 3;
  6.         int PageSize = 10;
  7.         Scan scan = new Scan();
  8.         if (PageNum == 1) {
  9.             scan.withStartRow("".getBytes());
  10.             //使用分页过滤器,实现数据的分页
  11.             PageFilter pageFilter = new PageFilter(PageSize);
  12.             scan.setFilter(pageFilter);
  13.             ResultScanner scanner = students.getScanner(scan);
  14.             printRS(scanner);
  15.         } else {
  16.             String current_page_start_rows = "";
  17.             int scanDatas = (PageNum - 1) * PageSize + 1;
  18.             PageFilter pageFilter = new PageFilter(scanDatas);
  19.             scan.setFilter(pageFilter);
  20.             ResultScanner scanner = students.getScanner(scan);
  21.             for (Result rs : scanner) {
  22.                 current_page_start_rows = Bytes.toString(rs.getRow());
  23.             }
  24.             scan.withStartRow(current_page_start_rows.getBytes());
  25.             PageFilter pageFilter1 = new PageFilter(PageSize);
  26.             scan.setFilter(pageFilter1);
  27.             ResultScanner scanner1 = students.getScanner(scan);
  28.             printRS(scanner1);
  29.         }
  30.     }
复制代码
通过合理的设置rowkey来实现分页功能
  1.     @Test
  2.     // 通过合理的设置rowkey来实现分页功能,提高效率
  3.     public void PageFilterTest2() throws IOException {
  4.         Table students = conn.getTable(TableName.valueOf("students"));
  5.         int PageSize = 10;
  6.         int PageNum = 3;
  7.         int baseId = 1500100000;
  8.         int start_row = baseId + (PageNum - 1) * PageSize + 1;
  9.         int end_row = start_row + PageSize;
  10.         Scan scan = new Scan();
  11.         scan.withStartRow(String.valueOf(start_row).getBytes());
  12.         scan.withStopRow(String.valueOf(end_row).getBytes());
  13.         ResultScanner scanner = students.getScanner(scan);
  14.         printRS(scanner);
  15.     }
复制代码
多过滤器综合查询
查询文科班中的学生中学号以150010008开头并且年龄小于23的学生信息
  1.     @Test
  2.     // 查询文科班中的学生中学号以150010008开头并且年龄小于23的学生信息
  3.     public void FilterListFilter() throws IOException {
  4.         Table students = conn.getTable(TableName.valueOf("students"));
  5.         Scan scan = new Scan();
  6.         SingleColumnValueFilter singleColumnValueFilter = new SingleColumnValueFilter(
  7.                 "info".getBytes()
  8.                 , "clazz".getBytes()
  9.                 , CompareFilter.CompareOp.EQUAL
  10.                 , new RegexStringComparator("^文科.*"));
  11.         PrefixFilter prefixFilter = new PrefixFilter("150010008".getBytes());
  12.         SingleColumnValueFilter singleColumnValueFilter1 = new SingleColumnValueFilter(
  13.                 "info".getBytes()
  14.                 , "age".getBytes()
  15.                 , CompareFilter.CompareOp.LESS
  16.                 , new BinaryComparator(Bytes.toBytes(23)));
  17.         FilterList filterList = new FilterList();
  18.         filterList.addFilter(singleColumnValueFilter);
  19.         filterList.addFilter(prefixFilter);
  20.         filterList.addFilter(singleColumnValueFilter1);
  21.         scan.setFilter(filterList);
  22.         ResultScanner scanner = students.getScanner(scan);
  23.         printRS(scanner);
  24.     }
复制代码
今天的分享就到这了,之后会继承分享hbase相关的内容。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

惊雷无声

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表