数据仓库与分析Hadoop-基础指令以及表示

篮之新喜 发表于 2025-3-28 03:57:27

Hadoop--基础指令以及表示

1、创建文件夹
·hadoop fs -mkdir [-p] <path>...
path 为待创建导入目录
-p 选项的行为与Unix mkdir -p 非常相似，它会沿着路径创建父目录
https://i-blog.csdnimg.cn/direct/e71f2515b3924d4db884337a06d451bd.png
2、查看指定目录下的内容
·hadoop fs -ls [-h] [-R] [<path>...]
path指定目录路径
-h 人性化显示文件size
-R 递归查看指定目录及其子目录
3、上传文件到HDFS指定目录下
·hadoop fs -put [-f] [-p] <localsrc>...<dst>
-f 覆盖目标文件（已存在下）
-p 保存访问和修改时间，所有权和权限
localsrc 本地文件体系（客户端地点机器）
dst 目标文件体系（HDFS）
https://i-blog.csdnimg.cn/direct/127941f499b0410097d33b4134d5dd64.png
4、查看HDFSA文件内容
·hadoop fs -cat <src>...
读取指定文件全部内容，显示在标准输出控制台
注意：对于大文件内容读取，慎重
https://i-blog.csdnimg.cn/direct/c7a8063e8f1e43bca7ca0df3a7f78ebe.png

5、查看HDFSA文件内容
·hadoop fs -tail <src>...
读取指定文件全部内容，显示在标准输出控制台https://i-blog.csdnimg.cn/direct/81fdd87c83534bf29a802c2e577631fd.png

6、下载HDFS文件
·hadoop fs -get [-f] [-p] <src>...<localdst>
下载文件到本地文件体系指定目录，localdst必须是目录
-f 覆盖目标文件（已存在下）
-p 保存访问和修改时间，所有权和权限。https://i-blog.csdnimg.cn/direct/787c477fbde34d79850b5790a9f5afe2.png

7、拷贝HDFS文件（在HDFS文件体系中）
·hadoop fs -cp [-f] <src>...<dst>
-f 覆盖目标文件（已存在下）
https://i-blog.csdnimg.cn/direct/d115daff5a1e44c0a2f5c6c6e40bae9c.png

8、追加数据到HDFS文件中
·hadoop fs -appendToFile <localsrc>...<dst>
将所有给定本地文件的内容追加到给定dst文件
dst如果文件不存在，将创建该文件
如果<localSrc> 为空，则输入为标准输入中读取https://i-blog.csdnimg.cn/direct/74607451e2714154b66a9757c989e1c6.png

9、HDDS数据移动操纵
·hadoop fs -mv <src>...<dst>
移动文件到指定文件夹下
可以使用该命令移动数据，https://i-blog.csdnimg.cn/direct/4d32e938af4f4649b3bf52d19a6e1f57.png重命名文件的名称

10、、主角色：namenode
·namenode是Hadoop分布式文件体系的核心，架构中的主角色
·namenode维护和管理文件体系元数据，包括名称空间目录树结构，文件和块的位置信息，访问权限等信息。
·基于此，namenode成为了访问HDFS的唯一入口。
·namenode内部通过内存和磁盘文件俩种方式管理元数据
·此中磁盘文件的元数据文件包括Fsimage内存元数据镜像文件和edits kog(Journal)编辑日志。
11、namenode职责
·NameNode仅储存HDFS的元数据：文件体系中所有文件的目录树，并跟踪整个集群中的文件，不存储实际数据
·NameNode知道HDFS中任何给定文件的块列表及其位置，使用此信息NameNode知道如何从块中构建文件。
·NameNode是Hadoop集群中的单点故障
·NameNode地点机器通常设置有大量内存(RAM)

12、从角色：datanode
·datanode是hadoop HDFS中的从角色，负责具体的数据块存储
·datanode的数目决定了HDFS集群的整体数据存储本领，通过和namenode配合维护着数据块。
datanode职责：
·DataNode负责最终数据块block的存储，是集群的从角色，也称slave。
·DataNode启动时，会将自己注册到namenode并汇报自己负责持有的块列表
·当某个datanode关闭时，不会影响数据的可用性，namenode将安排由其他datanode管理的块进行副本复制。
·datanode地点机器通常设置有大量的硬盘空间，因为实际数据存储在datanode中。

13、主角色辅助角色：secondarynamenode
·Secondary Namenode充当Namenode的辅助节点，但不能代替Namenode
·主要是资助主角色进行元数据文件的合并动作，可以普通的明白为主角色的“秘书”

14、查看所有队列的列表
·yarn queue -status roothttps://i-blog.csdnimg.cn/direct/320ef1fae5774ade83b4978c2f4c3603.png

15、检查NameNode状态
·hdfs dfsadmin -report

https://i-blog.csdnimg.cn/direct/e964fe0b197144e38a5f06237a3513da.png

16、执行作业
hadoop jar /export/server/share/hadoop/hadoop-mapreduce-examples-3.3.0.jar wordcount -Dmaroed.job.queue.name=root.root 指定队列
https://i-blog.csdnimg.cn/direct/56b3d71d004246e1945f7a1001d36d48.png

17、删除现有的输出目录
·hdfs dfs -rm -r /outputhttps://i-blog.csdnimg.cn/direct/cd65693d107c4ab2a8201b1c9aa42f68.png

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

Hadoop--基础指令以及表示