数据仓库与分析HDFS分布式文件体系详解(Hadoop)

宁睿发表于 2024-8-17 18:37:47

HDFS分布式文件体系详解(Hadoop)

HDFS详解(Hadoop)

Hadoop 分布式文件体系（Hadoop Distributed File System，HDFS）是 Apache Hadoop 生态体系的焦点组件之一，它是计划用于存储大规模数据集并运行在廉价硬件上的分布式文件体系。
https://i-blog.csdnimg.cn/direct/d03e4d3999ab4b5290135236decebe6f.png
1. 分布式存储：

[*]HDFS 将文件分割成若干块（Block），并将这些块分布式地存储在集群中的多个节点上。默认情况下，每个块的大小为 128 MB（可配置），而且每个块都会被复制到多个节点上以实现容错性。
https://i-blog.csdnimg.cn/direct/b399242ddca44b75bffc4612278c6b50.png

[*]分布式存储的上风在于可以有效地利用集群中的全部节点存储空间，而且通过数据的复制和容错机制，进步了数据的可靠性和可用性。
https://i-blog.csdnimg.cn/blog_migrate/7c3534427e5f4d0ae292eaaeb813c855.png
https://i-blog.csdnimg.cn/blog_migrate/601391ad4430be35069576142bff6299.png
2. 主从架构：

[*]HDFS 接纳主从架构，包罗一个 NameNode 和多个 DataNode 构成。
https://i-blog.csdnimg.cn/direct/061138e7314345528eb3c262fddeb2d0.png

[*]NameNode 负责管理文件体系的命名空间和存储元数据信息，而 DataNode 负责存储实际的数据块。
[*]NameNode 记载了文件的目次布局、文件与数据块的映射关系以及数据块的复制情况等元数据信息。
[*]DataNode 负责存储数据块，并向 NameNode 定期汇报数据块的状态。
https://i-blog.csdnimg.cn/blog_migrate/81a2c61d3340bfd32d1ca2fbcbef5688.png
3. 容错性和可靠性：

[*] HDFS 提供了多种容错机制来确保数据的可靠性和一致性。此中，数据的复制是最紧张的机制之一，每个数据块默认会被复制到集群中的多个节点上。
https://i-blog.csdnimg.cn/direct/a46708d7af674b46acb1895639e62af9.png
[*] 当某个节点发生故障或数据破坏时，HDFS 可以通过复制的数据块在其他节点上恢复数据，从而保证数据的完备性和可靠性。
https://i-blog.csdnimg.cn/blog_migrate/6f9630979c1f9227615e630d3d449944.png
4. 高吞吐量：

[*]HDFS 的计划目标之一是实现高吞吐量的数据访问。为了实现这一目标，HDFS 接纳了批量读写和数据当地化等计谋，尽大概地淘汰了网络传输的开销。
[*]别的，HDFS 还支持数据流式处理和数据并行处理等特性，可以满足大规模数据处理和分析的需求。
5. 数据一致性：

[*]HDFS 接纳了一致性模型，确保了数据的一致性和正确性。在数据写入和读取过程中，HDFS 会维护一致性语义，确保用户可以或许看到最新的数据内容。
https://i-blog.csdnimg.cn/direct/778078e391dc437ca93412bbc4502778.png

[*]别的，HDFS 还支持一些一致性保证，例如数据块的写入顺序保证等，以确保数据的一致性和可靠性。
6.使用场景

https://i-blog.csdnimg.cn/direct/89cb7bdac1c74722855ccc81afad7e5a.png
6.1适宜场景

[*] 大数据分析：HDFS 为存储大规模数据提供了可靠的根本，适用于各种大数据分析任务，如数据发掘、机器学习、统计分析等。通过 Hadoop MapReduce 或其他大数据处理框架，可以对存储在 HDFS 上的数据举行高效的分布式计算和分析。
[*] 日志处理：许多互联网和移动应用生成大量的日志数据，HDFS 可以作为存储这些日志数据的平台。通过将日志数据写入 HDFS，可以轻松地举行日志分析、用户举动分析、体系性能监控等任务。
[*] 数据堆栈：HDFS 可以作为数据堆栈的底层存储体系，用于存储布局化和非布局化的数据。联合数据堆栈办理方案，如 Apache Hive、Apache HBase 等，可以实现数据的高效查询、数据堆栈建模和数据集成等功能。
[*] 实时数据处理：只管 HDFS 本身不适合存储实时数据，但可以与其他实时数据处理体系集成，如 Apache Kafka、Apache Spark Streaming 等。通过将实时数据写入 HDFS，并联合实时处理体系举行流式处理，可以实现实时数据分析和实时陈诉生成等应用。
[*] 备份和归档：由于 HDFS 提供了数据的可靠性和容错性，因此可以将其用作备份和归档的存储办理方案。通过将数据备份到 HDFS，并定期举行数据归档，可以确保数据的安全性和可用性。
[*] 数据湖：HDFS 可以作为数据湖（Data Lake）的焦点存储，用于存储各种类型和格式的数据。联合数据湖办理方案，如 Apache Atlas、Apache Ranger 等，可以实现数据的统一管理、数据管理和数据安全等功能。
6.2不适宜场景

[*] 小型数据集：HDFS 计划用于存储大规模数据集，如果数据规模相对较小，使用 HDFS 大概会带来不必要的复杂性和开销。对于小型数据集，传统的文件体系或云存储服务大概更为符合。
[*] 低耽误要求：HDFS 优化了数据写入和读取的吞吐量，但并不适合对低耽误有极高要求的应用场景。由于 HDFS 不支持像传统文件体系那样的低耽误数据访问。
[*] 频仍的小文件操作：HDFS 的计划是为了存储大型数据文件，而不是大量小文件。如果应用必要频仍地处理大量小文件，那么 HDFS 的元数据操作和数据复制大概会成为性能瓶颈。
[*] 高度动态的数据访问模式：HDFS 更适合于批处理和长期存储，对于频仍变化的数据或必要快速更新的数据集，HDFS 大概不是最佳选择。由于 HDFS 的计划目标是高可靠性和一致性，而不是频仍变化的数据更新。
[*] 必要原子性操作和事务支持：HDFS 不支持原子性操作和事务处理，因此不适合必要强一致性和事务支持的应用场景。对于此类需求，应该选择支持事务处理的分布式数据库或存储体系。
[*] 不必要容错性和数据复制的场景：如果应用对数据的容错性和复制没有特别要求，大概数据可以通过其他手段举行备份和掩护，那么使用 HDFS 大概会带来不必要的复杂性和成本。
https://i-blog.csdnimg.cn/blog_migrate/86650b793b9f8a258ec56380a70d4f1b.png

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

HDFS分布式文件体系详解(Hadoop)