数据仓库与分析大数据-01-底子环境搭建超详细 Hadoop Java 环境变量 3节点云服务器 2C4G

麻花痒 发表于 2025-1-1 12:57:27

大数据-01-底子环境搭建超详细 Hadoop Java 环境变量 3节点云服务器 2C4G

点一下关注吧！！！非常感谢！！持续更新！！！

现在已经更新到了：

[*]Hadoop（正在更新）
https://i-blog.csdnimg.cn/direct/8c424003400f4328bdceda992a1d90a3.png
背景介绍

这里是三台公网云服务器，每台 2C4G，搭建一个Hadoop的学习环境，供我学习。
之前已经在 VM 虚拟机上搭建过一次，但是没留下笔记，这次趁着前几天薅羊毛的3台机器，赶紧尝试在公网上搭建体验一下。
留意，如果你和我一样，计划用公网部署，那肯定要做好防火墙战略，避免不必要的贫苦！！！
留意，如果你和我一样，计划用公网部署，那肯定要做好防火墙战略，避免不必要的贫苦！！！
留意，如果你和我一样，计划用公网部署，那肯定要做好防火墙战略，避免不必要的贫苦！！！
请大家都以学习为目标，也请不要对我的服务进行嗅探或者攻击！！！
请大家都以学习为目标，也请不要对我的服务进行嗅探或者攻击！！！
请大家都以学习为目标，也请不要对我的服务进行嗅探或者攻击！！！
但是有一台公网服务器我还运行着别的服务，比如前几天发的：autodl-keeper 自己写的小工具，防止AutoDL机器过期的。还跑着别的Web服务，以是只能挤出一台 2C2G 的机器。那我的配置如下了：

[*]2C4G 编号 h121
[*]2C4G 编号 h122
[*]2C2G 编号 h123 (后续如果服务器多出来，我另有好几台别的，到时间换一下)
Hadoop

Hadoop 是一个开源的分布式计算框架，由 Apache 软件基金会维护，主要用于处置惩罚大规模数据集。Hadoop 的焦点组件包罗：
HDFS（Hadoop Distributed File System）

Hadoop 分布式文件体系，是 Hadoop 中的存储体系，能够以分布式的方式存储大规模数据集。HDFS 将数据分成块，并将这些块分散存储在集群中的不同节点上，从而提供高容错性和可靠性。
MapReduce

这是 Hadoop 的数据处置惩罚模子，得当处置惩罚大规模的、需要并行计算的任务。MapReduce 将任务分为两个阶段：

[*]Map 阶段：将输入数据拆分为一系列键值对。
[*]Reduce 阶段：根据键对数据进行聚合或处置惩罚。
通过分布式计算，MapReduce 能够处置惩罚数百乃至上千台服务器上的数据，并有效利用硬件资源。
YARN（Yet Another Resource Negotiator）

YARN 是 Hadoop 集群中的资源管理器。YARN 负责调理和分配集群中的计算资源，使得 Hadoop 体系结构更灵活，可以支持 MapReduce 之外的其他处置惩罚框架。
Hadoop Common

这一组件为 Hadoop 各个模块提供了通用的工具和库，如文件体系抽象、序列化机制和 RPC（远程过程调用）框架。
优点

[*]可扩展性：Hadoop 可以通过增长节点来扩展计算和存储能力，适用于从单台服务器到上千节点的大规模集群。
[*]容错性：HDFS 会将数据复制到不同的节点中，即使部分节点出现故障，数据仍旧可以规复。
[*]本钱效益：Hadoop 是开源的，能够运行在便宜的商用硬件上，得当处置惩罚 PB 级别的数据。
[*]灵活性：Hadoop 能够处置惩罚各种格式的数据，包罗结构化、半结构化和非结构化数据。
应用场景

Hadoop 常用于大数据分析、数据仓库、日志处置惩罚、保举体系、机器学习和金融风险分析等场景。例如：

[*]数据存储和处置惩罚：企业可以使用 Hadoop 来存储并处置惩罚大量的历史数据，并在这些数据上运行分析步伐。
[*]机器学习：Hadoop 可以作为机器学习模子训练的底子架构，帮助处置惩罚大量的数据集。
[*]日志处置惩罚：Hadoop 常用于分析和处置惩罚来自不同服务器和应用步伐的日志数据，以便监控性能或进行故障排除。
Hadoop 已经成为大数据生态体系的底子，围绕它形成了丰富的技能栈，例如 Apache Hive、Apache HBase、Apache Pig 和 Apache Spark 等，进一步拓展了其能力。
Java 环境

apt 安装

sudo apt install openjdk-8-jdk
https://i-blog.csdnimg.cn/blog_migrate/bf55f3ad004223ed19f3fbe30252214f.png
下载安装

这种就是大家常用的方式安装，我选择的是 apt 的方式
# JDK8：https://www.oracle.com/cn/java/technologies/downloads/#java8-linux
验证环境

java -version
https://i-blog.csdnimg.cn/blog_migrate/7bb30ef04578b2f95d2715637ce563ec.png
环境变量

固然 apt 安装完之后，是有了环境变量，但是为了后续 Hadoop 能够正常的工作，我们还需要手动去配置一下。
找到你现在的Java目次
readlink -f $(which java)
https://i-blog.csdnimg.cn/blog_migrate/c03a485107c455741bac25e21a9cfbc2.png
修改配置文件
sudo vim /etc/profile

**写入如下内容: **
# java
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$JAVA_HOME/bin:$PATH
退出生存，并革新环境变量
source /etc/profile

此时，重新测试环境，如果没有题目，恭喜你一切顺利！
https://i-blog.csdnimg.cn/blog_migrate/e97d9a1c94b6fd8c0f7ead14b09136f9.png
Hadoop环境

创建目次

现在根目次下创建
sudo mkdir /opt/software
sudo mkdir /opt/servers
创建完毕后，进入软件的目次。
cd /opt/software
下载文件

https://i-blog.csdnimg.cn/blog_migrate/0bc1d99bd2c38d5a984cd14afae5c4d2.png
我们直接使用 wget 工具来帮助我们下载：
sudo wget -O hadoop-2.9.2.tar.gz https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
https://i-blog.csdnimg.cn/blog_migrate/f141723d62b9d81d8893fa504ceeaab6.png
解压文件

将文件解压到 servers 目次下
sudo tar -zxvf hadoop-2.9.2.tar.gz -C /opt/servers
https://i-blog.csdnimg.cn/blog_migrate/92acdaa969a8df39356b7f93d1b072a9.png
我们检察当前的目次：
https://i-blog.csdnimg.cn/blog_migrate/731b2c9120c26b84df0a766545b1f098.png
环境变量

打开环境配置
sudo vim /etc/profile

在最底部加入如下的内容：
# HADOOP_HOME
export HADOOP_HOME=/opt/servers/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
革新环境变量
source /etc/profile

验证环境

hadoop version
如果出现如图的内容，那么恭喜你！已经完成了开端的Java和Hadoop的环境配置！
https://i-blog.csdnimg.cn/blog_migrate/87a223666faa1677ee319a7d741ae4fd.png

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

大数据-01-底子环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G

大数据-01-底子环境搭建超详细 Hadoop Java 环境变量 3节点云服务器 2C4G