马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
x
一、HDFS异构存储类型
1.1 冷、热、温、冻数据
通常,公司或者组织总是有相称多的汗青数据占用昂贵的存储空间。典型的数据使用模式是新传入的数据被应用程序大量使用,从而该数据被标记为"热"数据。随着时间的推移,存储的数据每周被访问频频,而不是一天频频,这时以为其是"暖"数据。在接下来的几周和几个月中,数据使用率降落得更多,成为"冷"数据。假如很少使用数据,比方每年查询一次或两次,这时甚至可以根据其年龄创建第四个数据分类,并将这组很少被查询的旧数据称为"冻结数据"。 Hadoop允许将不是热数据或者活跃数据的数据分配到比较便宜的存储上,用于归档或冷存储。可以设置存储策略,将较旧的数据从昂贵的高性能存储上转移到性价比较低(较便宜)的存储装备上。 Hadoop 2.5及以上版本都支持存储策略,在该策略下,不仅可以在默认的传统磁盘上存储HDFS数据,还可以在SSD(固态硬盘)上存储数据。
1.2 什么是异构存储
- 异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性差别举行选择。 比方冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。
- 在读写服从上性能差距大。异构特性允许我们对差别文件选择差别的存储介质举行保存,以实现机器性能的最大化。
1.3 HDFS异构存储类型
HDFS中声明界说了4种异构存储类型:
- RAM_DISK(内存)
- SSD(固态硬盘)
- DISK(机械硬盘),默认使用。
- ARCHIVE(高密度存储介质,存储档案汗青数据)
其中true和false指是否使用transient, transient代表非持久化,而只有内存存储是transient
如何让HDFS知道集群中的数据存储目次是哪种类型存储介质?
- 配置属性时自动声明。HDFS并没有自动检测的本领。
- 配置参数dfs.datanode.data.dir = [SSD]file:///grid/dn/ssdO
- 假如目次前没有带上[SSD] [DISK] [ARCHIVE] [RAM_DISK] 这4种类型中的任何一种,则默认是DISK类型 。
二、存储类型选择策略
2.1 块存储类型选择策略
(1) 块存储指的是对HDFS文件的数据块副本储存。
(2)对于数据的存储介质,HDFS的BlockStoragePolicySuite 类内部界说了6种策略。
- HOT(默认策略)
- COLD
- WARM
- ALL_SSD
- ONE_SSD
- LAZY_PERSIST
(3)前三种根据冷热数据区分,后三种根据磁盘性子区分。
2.2 块存储类型选择策略--阐明
- HOT:用于存储和计算。流行且仍用于处置惩罚的数据将保存在此策略中。所有副本都存储在DISK中。
- COLD:仅适用于计算量有限的存储。不再使用的数据或须要归档的数据从热存储移动到冷存储。所有副本都存储在ARCHIVE中。
- WARM:部分热和部分冷。热时,其某些副本存储在DISK中,别的副本存储在ARCHIVE中。
- All_SSD:将所有副本存储在SSD中。
- One_SSD:用于将副本之一存储在SSD中。别的副本存储在DISK中。
- Lazy_Persist:用于在内存中写入具有单个副本的块。首先将副本写入RAM_DISK,然后将其延迟保存在DISK中。
2.3 块存储类型选择策略--速率快慢比较
三、 HDFS内存存储策略支持--LAZY PERSIST
- HDFS支持把数据写入由DataNode管理的堆外内存;
- DataNode异步地将内存中数据革新到磁盘,从而淘汰代价较高的磁盘IO操作,这种写入称为 Lazy Persist写入。
- 该特性从Apache Hadoop 2.6.0开始支持。
3.1 HDFS内存存储策略支持--LAZY PERSIST执行流程
- 对目的文件目次设置 StoragePolicy 为 LAZY_PERSIST 的内存存储策略 。
- 客户端进程向 NameNode 发起创建/写文件的哀求 。
- 客户端哀求到具体的 DataNode 后 DataNode 会把这些数据块写入 RAM 内存中,同时启动异步线程服务将内存数据持久化写到磁盘上 。
- 内存的异步持久化存储是指数据不是立刻落盘,而是懒惰的、延时地举行处置惩罚 。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |