什么是hadoop

发表于 2025-3-9 17:09:11

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

Apache Hadoop 是一个开源的 分布式计算框架，旨在以可靠、可扩展的方式存储和处置惩罚海量数据（从 TB 级到 PB 级）。它的焦点计划理念是通过多台自制服务器构建集群，实现数据的分布式存储和并行计算，适用于大数据场景下的批处置惩罚任务。
---
### Hadoop 的焦点组件
1. HDFS（Hadoop Distributed File System）
- 分布式文件系统，将大文件切分为多个块（默认 128MB/256MB），分散存储在多台呆板上。
- 高容错性：数据主动复制多份（默认 3 副本），纵然部门节点故障，数据仍可规复。
- 高吞吐量：得当顺序读写大文件，但不得当低延迟访问或频繁修改。
2. MapReduce
- 分布式计算模型，将任务拆分为 `Map`（数据映射）和 `Reduce`（效果汇总）两个阶段。
- 开发者需编写 Map 和 Reduce 函数，由框架主动处置惩罚分布式调度、容错和负载均衡。
- 缺点：中间效果需写入磁盘，性能较低（后续改进为 Apache Tez、Spark 等内存计算引擎）。
3. YARN（Yet Another Resource Negotiator）
- 资源管理框架，负责集群资源的统一调度（CPU、内存等）。
- 支持多种计算引擎（如 MapReduce、Spark、Flink）在同一个集群上运行，提拔资源利用率。
---
### Hadoop 生态系统
Hadoop 不但包含焦点组件，还衍生出一个丰富的工具生态，涵盖数据存储、计算、分析和管理：
- 数据存储：HBase（分布式 NoSQL 数据库）、Hive（数据仓库）。
- 计算引擎：Spark（内存计算）、Flink（流处置惩罚）、Tez（优化 DAG 执行）。
- 数据管理：ZooKeeper（分布式调和）、Oozie（工作流调度）。
- 呆板学习：Mahout（传统算法库）、Spark MLlib。
---
### 焦点特点
1. 高扩展性
- 可通过横向扩展（增加节点）轻松应对数据量增长，支持数千台服务器集群。
2. 高容错性
- 数据多副本存储和任务主动重试机制，保障硬件故障时的可靠性。
3. 低本钱
- 基于普通商用硬件构建，无需依赖昂贵的高端服务器。
4. 批处置惩罚优先
- 得当离线处置惩罚海量数据，但不得当及时流处置惩罚或交互式查询（需借助其他工具如 Spark）。
---
### 应用场景
- 大规模日记分析（如用户举动日记、服务器日记）。
- 数据仓库建立（存储历史数据，供 Hive、Spark SQL 分析）。
- ETL 流程（数据清洗、转换和加载）。
- 呆板学习与数据挖掘（预处置惩罚海量练习数据）。
---
### 与传统数据库的对比
| 特性 | Hadoop | 传统数据库（如 Oracle） |
|---------------------|---------------------------------|------------------------------|
| 数据规模 | PB 级，分布式存储 | TB 级，单机或小型集群 |
| 延迟 | 高吞吐量，分钟/小时级批处置惩罚 | 低延迟，毫秒/秒级响应 |
| 数据模型 | 支持结构化、半结构化、非结构化 | 仅结构化数据 |
| 硬件本钱 | 基于自制商用硬件 | 依赖高端硬件和存储 |
| 计算模式 | 分布式并行计算 | 单节点或有限并行 |
---
### 优缺点
- 优点：
本钱低、扩展性强、容错性高、生态丰富。
- 缺点：
及时性差、MapReduce 编程复杂、小文件处置惩罚服从低。
---
### 总结
Hadoop 是大数据领域的基石，解决了海量数据的存储（HDFS）和批处置惩罚（MapReduce/YARN）题目。尽管其原生存算引擎（MapReduce）渐渐被 Spark、Flink 等替代，但 HDFS 和 YARN 仍是很多大数据架构的焦点组件。联合 Hive、Spark 等工具，Hadoop 生态持续支撑着企业级数据湖、数据仓库等场景。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

继续阅读请点击广告

什么是hadoop

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

来自云龙湖轮廓分明的月亮