ToB企服应用市场:ToB评测及商务社交产业平台

标题: 大数据处理学习笔记 [打印本页]

作者: 小秦哥    时间: 2024-6-21 13:27
标题: 大数据处理学习笔记
  1. sudo tar -zxvf  hadoop-1.1.2.tar.gz -C /    #解压到/usr/local目录下
  2. sudo mv  hadoop-1.1.2  hadoop                      #重命名为hadoop
  3. sudo chown -R python ./hadoop                        #修改文件权限
  4. //java安装同上
  5. 给hadoop配置环境变量,将下面代码添加到.bashrc文件
  6. export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
  7. //export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
  8. export JRE_HOME=${JAVA_HOME}/jre
  9. export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
  10. export PATH=${JAVA_HOME}/bin:$PATH
  11. export HADOOP_HOME=/home/python/Downloads/hadoop
  12. export HADOOP_PREFIX=$HADOOP_HOME
  13. export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH
  14. export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
  15. export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  16. source .bashrc
  17. hadoop version
  18. 首先将jdk1.7的路径添(export JAVA_HOME=/usr/lib/jvm/java )加到hadoop/conf/hadoop-env.sh文件
  19. export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
  20. //export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64
  21. 修改core-site.xml文件
  22. 修改配置文件 hdfs-site.xml
  23. 修改配置文件 mapred-site.xml
  24. 修改配置文件 yarn-site.xml
  25. 从伪分布式模式切换回非分布式模式,需要删除 core-site.xml 中的配置项
  26. 伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行
  27. 执行 NameNode 的格式化,需先停止hadoop服务
  28. hadoop namenode -format
  29. 启动hadoop守护进程:
  30. ./hadoop/bin/start-all.sh
  31. ./hadoop/bin/stop-all.sh
  32. 跟踪进程
  33. strace -fe open start-all.sh
  34. 启动namenode和datanode进程,并查看启动结果
  35. ./hadoop/bin/start-dfs.sh
  36. datanode启动失败解决方案
  37. 1.删除版本重格式化
  38. rm ./hadoop/tmp/dfs/data/current/VERSION
  39. rm -rf ./hadoop/tmp/dfs/data
  40. chown -R python ./hadoop
  41. sudo chmod -R a+w ./hadoop
  42. //需先停止hadoop服务
  43. ./hadoop/bin/hadoop namenode -format
  44. 2.将name/current下的VERSION中的clusterID复制到data/current下的VERSION中,覆盖掉原来的clusterID
  45. //需先停止hadoop服务
  46. ./hadoop/bin/hadoop namenode -format
  47. apt install openjdk-8-jdk-headless
  48. jps
  49. 浏览器查看hadoop运行状态:
  50. NameNode - http://localhost:50070/
  51. JobTracker - http://localhost:50030/
  52. 复制本地文件到HDFS的input目录:
  53. ./hadoop/bin/hadoop fs –put /home/python/Downloads/hadoop/conf /home/python/Downloads/hadoop/tmp/input
  54. 运行hadoop提供的例子:
  55. hadoop jar /home/python/Downloads/hadoop/hadoop-examples-1.1.2.jar grep /home/python/Downloads/hadoop/tmp/input output 'dfs[a-z.]+'
  56. 查看DFS文件
  57. hadoop fs -ls output
  58. 复制DFS文件到本地,并在本地查看:
复制代码
词频统计 

  1. ./hadoop/bin/hadoop dfs -ls /
  2. //HDFS中创建一个文件目录input
  3. ./hadoop/bin/hadoop dfs -mkdir /input
  4. ./hadoop/bin/hadoop dfs -ls /
  5. 将./hadoop/README.txt上传至input中
  6. ./hadoop/bin/hadoop fs -put /hadoop/README.txt /input
  7. ./hadoop/bin/hadoop jar ./hadoop/hadoop-examples-1.1.2.jar wordcount /input /output  
  8. ./hadoop/bin/hadoop fs -cat /output/part-r-00000
  9. ·下面附一些HDFS常用命令:
  10. hadoop fs -mkdir /tmp/input? ? ? ?在HDFS上新建文件夹?
  11. hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下?
  12. hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本地?
  13. hadoop fs -ls /tmp/output? ? ? ? ?列出HDFS的某目录?
  14. hadoop fs -cat /tmp/ouput/output1.txt 查看HDFS上的文件?
  15. hadoop fs -rmr /home/less/hadoop/tmp/output 删除HDFS上的目录?
  16. hadoop dfsadmin -report 查看HDFS状态,比如有哪些datanode,每个datanode的情况?
  17. hadoop dfsadmin -safemode leave 离开安全模式?
  18. hadoop dfsadmin -safemode enter 进入安全模式
复制代码
ssh配置

  1. root@ubuntu:~# ps -ef | grep ssh
  2. 如果未启动,可以通过下面命令启动:
  3. root@ubuntu:~# /etc/init.d/ssh start
  4. chmod go-w ~/
  5. chmod 700 ~/.ssh
  6. chmod 600 ~/.ssh/authorized_keys
  7. 免密码配置ssh
  8. root@ubuntu:~# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
  9. ##  -P表示密码,-P '' 就表示空密码,也可以不用-P参数,这样就要三车回车,用-P就一次回车。
  10. root@ubuntu:~# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
  11. #关闭防火墙
  12. iptables -F
  13. 验证没有密码是否能ssh到localhost
  14. root@ubuntu:~# ssh localhost
  15. #调试信息
  16. sudo /usr/sbin/sshd -d
  17. netstat -tan | grep LIST
  18. fxcRqV8/Jn6nHr0a/xxoDB4qxVhRD3BS1uXKvtp1Zk4
  19. ::ls ~/.ssh/*下有密钥时先清空
  20. ssh-keygen -t rsa
  21. 一路回车
  22. sudo vim /etc/ssh/sshd_config
  23. 要确保下面这三个项目前面没有#
  24. RSAAuthentication yes
  25. PubkeyAuthentication yes
  26. AuthorizedKeysFile %h/.ssh/authorized_keys
  27. 重启一下ssh服务,这样ssh配置才能生效:
  28. 使用命令:service ssh restart
  29. 将id_rsa.pub公钥添加到本地的~/.ssh/authorized_keys文件中
  30. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  31. ::ls ~/.ssh/*
  32. ssh localhost
  33. exit
  34. 如果出现了Agent admitted failure to sign using the key的错误提示,
  35. 则使用ssh-add ~/.ssh/id_rsa来解决 。
  36. 使用ssh-copy-id命令将公钥传送到远程主机上
  37. ssh-copy-id remote-host
  38. ssh ubuntu@10.29.78.177
复制代码
安装JDK
  1. root@ubuntu:/usr/java# ./jdk-6u27-linux-i586.bin
  2. root@ubuntu:/# vim /etc/profile
  3. export JAVA_HOME=/usr/java/jdk1.6.0_27
  4. export PATH=$JAVA_HOME/bin:$PATH
  5. export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
  6. java -version
复制代码
hbase

  1. sudo tar -zxvf ./Downloads/hbase-0.94.7-security.tar.gz  -c ./Downloads/
  2. sudo mv  ./Downloads/hbase-0.94.7-security  ./Downloads/hbase
  3. sudo chown -R python ./Downloads/hbase
  4. cd Downloads/hbase
  5. conf目录下hbase-env.sh:
  6. export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
  7. HBase写入的本地路径:
  8. hbase-site.xml
  9. 启动HBase
  10. bin/start-hbase.sh
  11. 用shell来连接HBase
  12. bin/hbase shell
  13. 关闭防火墙
  14. service iptables stop
  15. 确认
  16. service iptables status
  17. 建表操作演示
  18. create 'table1','col1'
  19. list
  20. put 'table1','row1','col1:a','value1'
  21. put 'table1','row3','col1:c','value3'
  22. scan 'table1'
  23. //用get查看单行数据
  24. get 'table1','row1'
  25. //用disable和drop删除表
  26. disable 'table1'
  27. bin/stop-hbase.sh
  28. 访问地址:http://localhost:60010/
复制代码
hive

  1. export HIVE_HOME=/home/python/Downloads/hive
  2. export PATH=$HIVE_HOME/bin:$PATH
  3. 复制conf/hive-default.xml并重命名为hive-site.xml
  4. 复制MySQL驱动到<hive-install-dir>/lib/。我用的是:mysql-connector-java-5.1.7-bin.jar
  5. 运行Hive
  6. bin/hive
复制代码
Zookeeper

  1. 将conf/zoo_sample.cfg拷贝一份命名为zoo.cfg,也放在conf目录下
  2. sudo mkdir /tmp/zookeeper
  3. # 在 /tmp/zookeeper目录下创建myid文件,写id号,用来标识当前主机
  4. /tmp/zookeeper下执行 echo "1" > myid
  5. bin/zkServer.sh start
  6. bin/zkServer.sh status
  7. sudo java-cp zookeeper-3.4.5.jar:lib/slf4j-api-1.6.1.jar:lib/slf4j-log4j12-1.6.1.jar:lib/log4j-1.2.15.jar:conf\org.apache.zookeeper.server.quorum.QuorumPeerMain conf/zoo.cfg
复制代码


参考:
Hadoop伪分布式环境搭建_hadoop安装和伪分布式集群搭建的过程-CSDN博客
HBase单机环境搭建及入门_hbase可以单机运行-CSDN博客
Hive环境搭建_hive搭建-CSDN博客
GitHub - apache/spark: Apache Spark - A unified analytics engine for large-scale data processing
Spark在Windows下的环境搭建_windows spark-CSDN博客
ZooKeeper集群环境搭建实践_服务器应用_Linux公社-Linux系统流派网站

创作不易,小小的支持一下吧!



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4