Linux环境下分布式大数据框架安装部署流程(离线):
JDK、Scala→Hadoop→Spark、Flink→Kafka
一、JDK安装设置步骤
以jdk 1.8为例
1.1 准备安装包
- 查看Linux体系的架构(如x64)
- 访问Oracle官网或其他可信源根据Linux体系架构下载对应的JDK安装包到本地,后续以 jdk-8u431-linux-x64.tar.gz 为例
- 设置root用户暗码
- 为避免权限问题,后续都利用root用户登录服务器
- 在Linux服务器上创建存放各种压缩包的文件夹目次,并将下载的JDK安装包上传到该目次下
- 进入存放JDK安装包的目次
- 解压JDK安装包
- tar -zxvf jdk-8u431-linux-x64.tar.gz
复制代码 - 解压完成后删除安装包(可选)
- rm -rf jdk-8u431-linux-x64.tar.gz
复制代码 1.2 安装与环境变量设置
- 创建安装目次,并将解压后的JDK安装包移动到安装目次下
- cd /usr/local
- mkdir program/Java
- mv /opt/file/jdk-8u431-linux-x64.tar.gz /usr/local/program/Java/
复制代码 - 编辑设置体系环境变量,Ubuntu环境下需要先利用下令apt-get install vim安装vim
- 在文件末尾参加以下内容(以实际版本和路径为准)
- # Java环境变量
- export JAVA_HOME=/usr/local/program/Java/jdk1.8.0_431
- export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
- export PATH=$PATH:$JAVA_HOME/bin
复制代码 - 按Esc键,输入:wq(权限不够时输入:wq!强制退出)并按回车保存退出vim编辑器
- 刷新环境变量设置
- 检查JDK是否安装成功,并查看安装的JDK版本
- 利用下令echo JAVA_HOME</code>和<code>echo PATH检查环境变量是否设置正确
二、、Scala:2.11.12安装设置步骤
在安装Scala之前,确保Linux服务器上已经安装了JDK,由于Scala是运行在JVM上的。另外,假如在解压或设置环境变量过程中遇到权限问题,可以利用sudo下令提高权限。
2.1 准备步骤
- 访问Scala官网找到对应版本的安装包并下载scala-2.11.12
- 将下载的Scala安装包上传到Linux服务器的指定目次/usr/local/scala
2.2 安装步骤
- 进入存放Scala安装包的目次
- 解压安装包
- tar -zxvf scala-2.11.12.tgz -C /usr/local/scala
复制代码 2.3 设置步骤
- 编辑设置体系环境变量
- 在文件末尾参加以下内容(以实际版本和路径为准)
- # Scala环境变量
- export SCALA_HOME=/usr/local/scala/scala-2.11.12
- export PATH=$SCALA_HOME/bin:$PATH
复制代码 - 按Esc键,输入:wq(权限不够时输入:wq!强制退出)并按回车保存退出vim编辑器
- 刷新环境变量设置
- 检查Scala是否安装成功,并查看安装的版本bash
三、Hadoop:2.7.x或2.8.x安装设置步骤
3.1 准备环境
- 确保Linux体系已安装:通常利用CentOS或Ubuntu等发行版。
- 检查Java环境:Hadoop是基于Java开发的,因此需要先安装JDK。前面已经安装了JDK 1.8版本。
- 设置SSH服务:Hadoop集群中的节点之间需要通过SSH进行通信。
3.2 下载Hadoop安装包
访问Apache Hadoop官方网站或相干镜像网站。
找到Hadoop 2.7版本的安装包,如hadoop-2.7.x.tar.gz,并下载。
3.3 解压并安装Hadoop
利用tar下令解压Hadoop安装包,例如:
- tar -zxvf hadoop-2.7.x.tar.gz -C /usr/local/
复制代码 这将把Hadoop解压到/usr/local/目次下,并创建一个名为hadoop-2.7.x(x为详细的小版本号)的子目次。
重命名Hadoop目次(可选),例如:
- mv /usr/local/hadoop-2.7.x /usr/local/hadoop
复制代码 3.4 设置Hadoop环境变量
利用vim或其他文本编辑器打开/etc/profile文件,例如:
在文件末尾添加以下内容,以设置Hadoop的环境变量:
- # Hadoop environment
- export HADOOP_HOME=/usr/local/hadoop
- export PATH=$HADOOP_HOME/bin:$PATH
复制代码 保存并退出vim编辑器。
利用source下令刷新环境变量,例如:
3.5 设置Hadoop相干文件
进入Hadoop的设置文件目次,例如:
- cd /usr/local/hadoop/etc/hadoop/
复制代码 设置hadoop-env.sh文件,指定Java的安装路径,例如:
- export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk # 根据实际Java安装路径修改
复制代码 设置core-site.xml文件,设置Hadoop的暂时目次和文件体系名称等,例如:
- <configuration>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/tmp/hadoop-${user.name}</value>
- </property>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://localhost:9000</value>
- </property>
- </configuration>
复制代码 设置hdfs-site.xml文件,设置HDFS的副本数量和数据节点等,例如:
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- <property>
- <name>dfs.namenode.name.dir</name>
- <value>/tmp/hadoop/dfs/name</value>
- </property>
- <property>
- <name>dfs.datanode.data.dir</name>
- <value>/tmp/hadoop/dfs/data</value>
- </property>
- </configuration>
复制代码 假如需要设置MapReduce,还需设置mapred-site.xml文件(通常mapred-site.xml.template是模板文件,需要重命名并编辑),例如:
- <configuration>
- <property>
- <name>mapred.job.tracker</name>
- <value>localhost:9001</value>
- </property>
- </configuration>
复制代码 3.6 格式化HDFS并启动Hadoop
格式化HDFS文件体系(首次启动Hadoop前需要实行),例如:
启动Hadoop的NameNode和DataNode守护进程,例如:
假如设置了MapReduce,还需启动JobTracker和TaskTracker守护进程(在Hadoop 2.x版本中,这些组件已被ResourceManager和NodeManager替代,但在此2.7版本中仍利用JobTracker和TaskTracker),例如:
- start-mapred.sh # 仅在配置了MapReduce时需要
复制代码 利用jps下令检查Hadoop相干进程是否启动成功。
3.7 验证Hadoop安装
访问Hadoop的Web UI界面,通常可以通过以下URL访问NameNode和ResourceManager的状态页面:
NameNode:http://localhost:50070/
ResourceManager(假如设置了YARN):http://localhost:8088/
在Hadoop的交互模式下运行简单的Hadoop程序,如WordCount示例,以验证Hadoop是否安装成功。
注意事项
在安装和设置Hadoop过程中,确保全部路径和设置信息都正确无误。
假如遇到权限问题,可以利用sudo下令提升权限。
在生产环境中,建议将Hadoop安装到非root用户下,并设置相应的权限和安全步调。
四、Spark:2.4.0安装设置步骤
五、Flink:1.13.0安装设置步骤
安装、集群设置
六、Kafka:2.2.2安装设置步骤
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |