大数据入门-什么是HBase

打印 上一主题 下一主题

主题 823|帖子 823|积分 2469

目录
一、概念
二、架构
1.Client
2.Zookeeper
3.HMaster
4.HRegionServer
三、特性
1.数据存储庞大
2.支持随机读写
3.轻松融入生态
4.数据强一致性
5.性能充足高效
四、实用场景
五、其他事宜
1.权益备注
2.支持博主
大数据入门系列文章


这里简单介绍的HBase的概念、设计理念、数据模子、逻辑结构、架构等。至于比较详细的介绍,会单独针对这个组件举行详细介绍,可以关注博客后续阅读。
一、概念


HBase是一个分布式的、面向列的开源数据库,该技术泉源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的本领。HBase是Apache的Hadoop项目的子项目。HBase不同于一样平常的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
Apache HBase是以HDFS为数据存储的,一种分布式、可扩展的NoSQL数据库。
HBase数据模子:HBase的设计理念依据Google的BigTable论文,论文中对于数据模子的首句介绍。BigTable是一个稀疏的、分布式的、持久的多维排序map(映射)。该map由行键、列键和时间戳索引。map中的每个值都是一个未表明的字节数组。
终极明白HBase数据模子的关键在于稀疏、分布式、多维、排序的映射。此中映射map指代非关系型数据库的Key-Value结构。
HBase逻辑结构:存储数据稀疏,数据存储多维,不同的行具有不同的列。数据存储团体有序,按照RowKey的字典排列,RowKey为Byte数组。

二、架构

HBase团体的基础架构如下图

1.Client

利用HBase RPC机制与HMaster和HRegionServer举行通信,Client与HMaster举行通信管理类操作,Client与HRegionServer举行数据读写类操作。
2.Zookeeper

HBase 通过 Zookeeper 来做 Master 的高可用、RegionServer 的监控、元数据的入口以及集群配置的维护等工作。
Zookeeper Quorum存储-ROOT-表地址、HMaster地址,HRegionServer把自己以Ephedral方式注册到Zookeeper中,HMaster随时感知各个HRegionServer的康健状态,Zookeeper避免HMaster单点题目。   
3.HMaster

HMaster重要是维护一些集群的元数据信息,同时监控RegionServer的服务状态,并且通过Zookeeper提供集群服务,向客户端袒露集群的服务端信息。
4.HRegionServer

HBase中最核心的模块,重要负责响应用户I/O请求,向HDFS文件系统中读写数据HBase中最核心的模块,重要负责响应用户I/O请求,向HDFS文件系统中读写数据。
 
三、特性



1.数据存储庞大

HBase支持非常大的数据集,数十亿行,数百万列。云云庞大的数据量级,足以撑爆我们在J2EE阶段学习过的全部数据存储引擎。
2.支持随机读写

HBase支持大数据量的随机、实时读写操作。在海量数据中,可以实现毫秒级的数据读写。
3.轻松融入生态

HBase从一开始就深度集成了Hadoop。HBase基于Hadoop举行文件持久化,还继承了Hadoop带来的强大的可扩展性。Hadoop可以基于廉价PC机组建庞大的应用集群。HBase也深度集成了Hadoop的MapReduce盘算框架,并且也正在积极整合Spark。这使得HBase能够很轻松的融入到整个大数据生态圈。
4.数据强一致性

HBase的数据是强一致性的,从CAP理论来看,HBase是属于CP的。这种设计可以让程序员不须要担心脏读、幻读这些事件终极一致性带来的题目。
5.性能充足高效

最后最重要的还是HBase的框架性能是充足高效的。HBase的开源社区非常活跃,他的性能颠末很多大型商业产品的验证。Facebook的整个消息流转的基础办法就构建于HBase之上。
四、实用场景


这里不妨拿Hive来比较一下,有助于我们明白HBase的实用场景。
Hive提供了基于SQL的对海量数据举行查询统计的功能,但是Hive不存储数据,全部数据操作都是对HDFS上的文件举行操作,以是他对数据的查询操作能做的优化比较有限。同时Hive也无法直接受理数据,对数据的管理依赖于MapReduce,以是耽误非常高。以是Hive通常只实用于一些OLAP的场景,并且通常是与其他组件结合一起进利用用。
而HBase与Hive的区别就非常明显。HBase基于HDFS来存储数据,但是他存储的数据都是颠末自己优化索引后的数据,以是他对数据的存储是非常高效的,比HDFS直接存储文件的性能要高很多,可以作为整个大数据的存储基石。而HBase以类似于Redis的列式存储来管理数据,对数据的增删改都会非常高效,可以到达毫秒级响应。同时,也提供了美满的客户端API,以是他完全可以作为传统意义上的数据库利用,实用于大部门的OLTP的场景。但是他的缺点也比较明显,基于列式存储的数据,天生就不太适合大规模的数据统计,以是在很多OLAP的场景,须要结合其他一些组件如spark、hive等,来提供大规模数据统计的功能
五、其他事宜

1.权益备注

如有侵权请接洽我删除。
2.支持博主

如果您觉得此文对您有帮助,请点赞加关注加收藏。祝您生活舒畅!
大数据入门系列文章

1.大数据入门-大数据是什么
2.大数据入门-大数据技术概述(一)
3.大数据入门-大数据技术概述(二)
4.大数据入门-三分钟读懂Hadoop
5.大数据入门-五分钟读懂HDFS
6.大数据入门-五分钟读懂Hive
7.大数据入门-什么是Kudu
帅哥玉人们走过途经不要错过,关注点赞走上人生巅峰!!!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

钜形不锈钢水箱

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表