【大数据】Linux环境下分布式大数据框架安装部署流程（更新中） ...

傲渊山岳 · 2024-11-26 20:53:30

Linux环境下分布式大数据框架安装部署流程（离线）：
JDK、Scala→Hadoop→Spark、Flink→Kafka
一、JDK安装设置步骤

以jdk 1.8为例
1.1 准备安装包

查看Linux体系的架构（如x64）
1. uname -m
复制代码
访问Oracle官网或其他可信源根据Linux体系架构下载对应的JDK安装包到本地，后续以 jdk-8u431-linux-x64.tar.gz 为例
设置root用户暗码
1. sudo passwd root
复制代码
为避免权限问题，后续都利用root用户登录服务器
1. sudo su root
复制代码
在Linux服务器上创建存放各种压缩包的文件夹目次，并将下载的JDK安装包上传到该目次下
1. cd /opt
2. mkdir file
复制代码
进入存放JDK安装包的目次
1. cd /opt/file
复制代码
解压JDK安装包
1. tar -zxvf jdk-8u431-linux-x64.tar.gz
复制代码
解压完成后删除安装包（可选）
1. rm -rf jdk-8u431-linux-x64.tar.gz
复制代码

1.2 安装与环境变量设置

创建安装目次，并将解压后的JDK安装包移动到安装目次下
1. cd /usr/local
2. mkdir program/Java
3. mv /opt/file/jdk-8u431-linux-x64.tar.gz /usr/local/program/Java/
复制代码
编辑设置体系环境变量，Ubuntu环境下需要先利用下令apt-get install vim安装vim
1. vim /etc/profile
复制代码
在文件末尾参加以下内容（以实际版本和路径为准）
1. # Java环境变量
2. export JAVA_HOME=/usr/local/program/Java/jdk1.8.0_431
3. export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
4. export PATH=$PATH:$JAVA_HOME/bin
复制代码
按Esc键，输入:wq（权限不够时输入:wq!强制退出）并按回车保存退出vim编辑器
刷新环境变量设置
1. source /etc/profile
复制代码
检查JDK是否安装成功，并查看安装的JDK版本
1. java -version
复制代码
利用下令echo JAVA_HOME</code>和<code>echo PATH检查环境变量是否设置正确

二、、Scala：2.11.12安装设置步骤

在安装Scala之前，确保Linux服务器上已经安装了JDK，由于Scala是运行在JVM上的。另外，假如在解压或设置环境变量过程中遇到权限问题，可以利用sudo下令提高权限。
2.1 准备步骤

访问Scala官网找到对应版本的安装包并下载scala-2.11.12
将下载的Scala安装包上传到Linux服务器的指定目次/usr/local/scala

2.2 安装步骤

进入存放Scala安装包的目次
1. cd /usr/local/scala
复制代码
解压安装包
1. tar -zxvf scala-2.11.12.tgz -C /usr/local/scala
复制代码

2.3 设置步骤

编辑设置体系环境变量
1. vim /etc/profile
复制代码
在文件末尾参加以下内容（以实际版本和路径为准）
1. # Scala环境变量
2. export SCALA_HOME=/usr/local/scala/scala-2.11.12
3. export PATH=$SCALA_HOME/bin:$PATH
复制代码
按Esc键，输入:wq（权限不够时输入:wq!强制退出）并按回车保存退出vim编辑器
刷新环境变量设置
1. source /etc/profile
复制代码
检查Scala是否安装成功，并查看安装的版本bash
1. scala -version
复制代码

三、Hadoop：2.7.x或2.8.x安装设置步骤

3.1 准备环境

确保Linux体系已安装：通常利用CentOS或Ubuntu等发行版。
检查Java环境：Hadoop是基于Java开发的，因此需要先安装JDK。前面已经安装了JDK 1.8版本。
设置SSH服务：Hadoop集群中的节点之间需要通过SSH进行通信。

3.2 下载Hadoop安装包

访问Apache Hadoop官方网站或相干镜像网站。
找到Hadoop 2.7版本的安装包，如hadoop-2.7.x.tar.gz，并下载。
3.3 解压并安装Hadoop

利用tar下令解压Hadoop安装包，例如：

tar -zxvf hadoop-2.7.x.tar.gz -C /usr/local/

复制代码

这将把Hadoop解压到/usr/local/目次下，并创建一个名为hadoop-2.7.x（x为详细的小版本号）的子目次。
重命名Hadoop目次（可选），例如：

mv /usr/local/hadoop-2.7.x /usr/local/hadoop

复制代码

3.4 设置Hadoop环境变量

利用vim或其他文本编辑器打开/etc/profile文件，例如：

vim /etc/profile

复制代码

在文件末尾添加以下内容，以设置Hadoop的环境变量：

# Hadoop environment
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$PATH

复制代码

保存并退出vim编辑器。
利用source下令刷新环境变量，例如：

source /etc/profile

复制代码

3.5 设置Hadoop相干文件

进入Hadoop的设置文件目次，例如：

cd /usr/local/hadoop/etc/hadoop/

复制代码

设置hadoop-env.sh文件，指定Java的安装路径，例如：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk # 根据实际Java安装路径修改

复制代码

设置core-site.xml文件，设置Hadoop的暂时目次和文件体系名称等，例如：

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop-${user.name}</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

复制代码

设置hdfs-site.xml文件，设置HDFS的副本数量和数据节点等，例如：

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/tmp/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/tmp/hadoop/dfs/data</value>
</property>
</configuration>

复制代码

假如需要设置MapReduce，还需设置mapred-site.xml文件（通常mapred-site.xml.template是模板文件，需要重命名并编辑），例如：

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

复制代码

3.6 格式化HDFS并启动Hadoop

格式化HDFS文件体系（首次启动Hadoop前需要实行），例如：

hdfs namenode -format

复制代码

启动Hadoop的NameNode和DataNode守护进程，例如：

start-dfs.sh

复制代码

假如设置了MapReduce，还需启动JobTracker和TaskTracker守护进程（在Hadoop 2.x版本中，这些组件已被ResourceManager和NodeManager替代，但在此2.7版本中仍利用JobTracker和TaskTracker），例如：

start-mapred.sh # 仅在配置了MapReduce时需要

复制代码

利用jps下令检查Hadoop相干进程是否启动成功。
3.7 验证Hadoop安装

访问Hadoop的Web UI界面，通常可以通过以下URL访问NameNode和ResourceManager的状态页面：
NameNode：http://localhost:50070/
ResourceManager（假如设置了YARN）：http://localhost:8088/
在Hadoop的交互模式下运行简单的Hadoop程序，如WordCount示例，以验证Hadoop是否安装成功。
注意事项
在安装和设置Hadoop过程中，确保全部路径和设置信息都正确无误。
假如遇到权限问题，可以利用sudo下令提升权限。
在生产环境中，建议将Hadoop安装到非root用户下，并设置相应的权限和安全步调。
四、Spark：2.4.0安装设置步骤

五、Flink：1.13.0安装设置步骤

安装、集群设置
六、Kafka：2.2.2安装设置步骤

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【大数据】Linux环境下分布式大数据框架安装部署流程（更新中） ...

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块