【大数据】Linux环境下分布式大数据框架安装部署流程(更新中) ...

打印 上一主题 下一主题

主题 902|帖子 902|积分 2706

Linux环境下分布式大数据框架安装部署流程(离线):
JDK、Scala→Hadoop→Spark、Flink→Kafka
一、JDK安装设置步骤

以jdk 1.8为例
1.1 准备安装包



  • 查看Linux体系的架构(如x64)
    1. uname -m
    复制代码
  • 访问Oracle官网或其他可信源根据Linux体系架构下载对应的JDK安装包到本地,后续以 jdk-8u431-linux-x64.tar.gz 为例
  • 设置root用户暗码
    1. sudo passwd root
    复制代码
  • 为避免权限问题,后续都利用root用户登录服务器
    1. sudo su root
    复制代码
  • 在Linux服务器上创建存放各种压缩包的文件夹目次,并将下载的JDK安装包上传到该目次下
    1. cd /opt
    2. mkdir file
    复制代码
  • 进入存放JDK安装包的目次
    1. cd /opt/file
    复制代码
  • 解压JDK安装包
    1. tar -zxvf jdk-8u431-linux-x64.tar.gz
    复制代码
  • 解压完成后删除安装包(可选)
    1. rm -rf jdk-8u431-linux-x64.tar.gz
    复制代码
1.2 安装与环境变量设置



  • 创建安装目次,并将解压后的JDK安装包移动到安装目次下
    1. cd /usr/local
    2. mkdir program/Java
    3. mv /opt/file/jdk-8u431-linux-x64.tar.gz /usr/local/program/Java/
    复制代码
  • 编辑设置体系环境变量,Ubuntu环境下需要先利用下令apt-get install vim安装vim
    1. vim /etc/profile
    复制代码
  • 在文件末尾参加以下内容(以实际版本和路径为准)
    1. # Java环境变量
    2. export JAVA_HOME=/usr/local/program/Java/jdk1.8.0_431
    3. export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    4. export PATH=$PATH:$JAVA_HOME/bin
    复制代码
  • 按Esc键,输入:wq(权限不够时输入:wq!强制退出)并按回车保存退出vim编辑器
  • 刷新环境变量设置
    1. source /etc/profile
    复制代码
  • 检查JDK是否安装成功,并查看安装的JDK版本
    1. java -version
    复制代码
  • 利用下令echo JAVA_HOME</code>和<code>echo PATH检查环境变量是否设置正确
二、、Scala:2.11.12安装设置步骤

在安装Scala之前,确保Linux服务器上已经安装了JDK,由于Scala是运行在JVM上的。另外,假如在解压或设置环境变量过程中遇到权限问题,可以利用sudo下令提高权限。
2.1 准备步骤



  • 访问Scala官网找到对应版本的安装包并下载scala-2.11.12
  • 将下载的Scala安装包上传到Linux服务器的指定目次/usr/local/scala
2.2 安装步骤



  • 进入存放Scala安装包的目次
    1. cd /usr/local/scala
    复制代码
  • 解压安装包
    1. tar -zxvf scala-2.11.12.tgz -C /usr/local/scala
    复制代码
2.3 设置步骤



  • 编辑设置体系环境变量
    1. vim /etc/profile
    复制代码
  • 在文件末尾参加以下内容(以实际版本和路径为准)
    1. # Scala环境变量
    2. export SCALA_HOME=/usr/local/scala/scala-2.11.12
    3. export PATH=$SCALA_HOME/bin:$PATH
    复制代码
  • 按Esc键,输入:wq(权限不够时输入:wq!强制退出)并按回车保存退出vim编辑器
  • 刷新环境变量设置
    1. source /etc/profile
    复制代码
  • 检查Scala是否安装成功,并查看安装的版本bash
    1. scala -version
    复制代码
三、Hadoop:2.7.x或2.8.x安装设置步骤

3.1 准备环境


  • 确保Linux体系已安装:通常利用CentOS或Ubuntu等发行版。
  • 检查Java环境:Hadoop是基于Java开发的,因此需要先安装JDK。前面已经安装了JDK 1.8版本。
  • 设置SSH服务:Hadoop集群中的节点之间需要通过SSH进行通信。
3.2 下载Hadoop安装包

访问Apache Hadoop官方网站或相干镜像网站。
找到Hadoop 2.7版本的安装包,如hadoop-2.7.x.tar.gz,并下载。
3.3 解压并安装Hadoop

利用tar下令解压Hadoop安装包,例如:
  1. tar -zxvf hadoop-2.7.x.tar.gz -C /usr/local/
复制代码
这将把Hadoop解压到/usr/local/目次下,并创建一个名为hadoop-2.7.x(x为详细的小版本号)的子目次。
重命名Hadoop目次(可选),例如:
  1.    mv /usr/local/hadoop-2.7.x /usr/local/hadoop
复制代码
3.4 设置Hadoop环境变量

利用vim或其他文本编辑器打开/etc/profile文件,例如:
  1.    vim /etc/profile
复制代码
在文件末尾添加以下内容,以设置Hadoop的环境变量:
  1.    # Hadoop environment
  2.    export HADOOP_HOME=/usr/local/hadoop
  3.    export PATH=$HADOOP_HOME/bin:$PATH
复制代码
保存并退出vim编辑器。
利用source下令刷新环境变量,例如:
  1.    source /etc/profile
复制代码
3.5 设置Hadoop相干文件

进入Hadoop的设置文件目次,例如:
  1.    cd /usr/local/hadoop/etc/hadoop/
复制代码
设置hadoop-env.sh文件,指定Java的安装路径,例如:
  1.    export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk  # 根据实际Java安装路径修改
复制代码
设置core-site.xml文件,设置Hadoop的暂时目次和文件体系名称等,例如:
  1.    <configuration>
  2.        <property>
  3.            <name>hadoop.tmp.dir</name>
  4.            <value>/tmp/hadoop-${user.name}</value>
  5.        </property>
  6.        <property>
  7.            <name>fs.defaultFS</name>
  8.            <value>hdfs://localhost:9000</value>
  9.        </property>
  10.    </configuration>
复制代码
设置hdfs-site.xml文件,设置HDFS的副本数量和数据节点等,例如:
  1.    <configuration>
  2.        <property>
  3.            <name>dfs.replication</name>
  4.            <value>1</value>
  5.        </property>
  6.        <property>
  7.            <name>dfs.namenode.name.dir</name>
  8.            <value>/tmp/hadoop/dfs/name</value>
  9.        </property>
  10.        <property>
  11.            <name>dfs.datanode.data.dir</name>
  12.            <value>/tmp/hadoop/dfs/data</value>
  13.        </property>
  14.    </configuration>
复制代码
假如需要设置MapReduce,还需设置mapred-site.xml文件(通常mapred-site.xml.template是模板文件,需要重命名并编辑),例如:
  1.    <configuration>
  2.        <property>
  3.            <name>mapred.job.tracker</name>
  4.            <value>localhost:9001</value>
  5.        </property>
  6.    </configuration>
复制代码
3.6 格式化HDFS并启动Hadoop

格式化HDFS文件体系(首次启动Hadoop前需要实行),例如:
  1.    hdfs namenode -format
复制代码
启动Hadoop的NameNode和DataNode守护进程,例如:
  1.    start-dfs.sh
复制代码
假如设置了MapReduce,还需启动JobTracker和TaskTracker守护进程(在Hadoop 2.x版本中,这些组件已被ResourceManager和NodeManager替代,但在此2.7版本中仍利用JobTracker和TaskTracker),例如:
  1.    start-mapred.sh  # 仅在配置了MapReduce时需要
复制代码
利用jps下令检查Hadoop相干进程是否启动成功。
3.7 验证Hadoop安装

访问Hadoop的Web UI界面,通常可以通过以下URL访问NameNode和ResourceManager的状态页面:
NameNode:http://localhost:50070/
ResourceManager(假如设置了YARN):http://localhost:8088/
在Hadoop的交互模式下运行简单的Hadoop程序,如WordCount示例,以验证Hadoop是否安装成功。
注意事项
在安装和设置Hadoop过程中,确保全部路径和设置信息都正确无误。
假如遇到权限问题,可以利用sudo下令提升权限。
在生产环境中,建议将Hadoop安装到非root用户下,并设置相应的权限和安全步调。
四、Spark:2.4.0安装设置步骤

五、Flink:1.13.0安装设置步骤

安装、集群设置
六、Kafka:2.2.2安装设置步骤


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

傲渊山岳

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表