【Hadoop入门】Hadoop文件操作指南:文件上传下载详解

打印 上一主题 下一主题

主题 1805|帖子 1805|积分 5415

1 Hadoop文件操作底子概念

      Hadoop分布式文件体系(HDFS)是Hadoop生态的焦点存储组件,专为大规模数据存储设计。      
  2 下令行操作指南

2.1 文件上传操作

  
  1. hadoop fs -put <本地路径> <HDFS路径>
  2. # 示例:将本地文件上传到HDFS
  3. hadoop fs -put /home/user/data.txt /user/hadoop/input/
复制代码
   

  • 高级选项
   
参数

说明

示例

-f
逼迫覆盖已存在文件
hadoop fs -put -f local.txt /input
-p
保存访问时间等属性
hadoop fs -put -p log.txt /logs
-l
允许大文件(>2GB)上传
hadoop fs -put -l bigfile.zip /data
  2.2 文件下载操作

  
  1. hadoop fs -get <HDFS路径> <本地路径>
  2. # 示例:从HDFS下载文件到本地
  3. hadoop fs -get /user/hadoop/output/result.csv ./results/
复制代码
   

  • 实用技巧
   
  1. # 下载多个文件到本地目录
  2. hadoop fs -get /user/hadoop/logs/* ./local_logs/
  3. # 只下载比本地新的文件
  4. hadoop fs -get -ignoreCrc /data/newfile.txt
复制代码
3 文件传输原理图解

   
  4 性能优化技巧

4.1 大文件传输优化

   
技能

说明

设置参数

并行上传
分块并行上传
mapreduce.client.submit.file.replication
压缩传输
淘汰网络IO
io.compression.codecs
校验跳过
克制重复校验
dfs.client.read.shortcircuit.skip.checksum
  4.2 小文件处理惩罚方案

  
  1. # 合并小文件为HAR归档
  2. hadoop archive -archiveName data.har -p /input/small_files /output
  3. # 使用SequenceFile存储
  4. hadoop jar hadoop-examples.jar sequencefilewriter /input /output
复制代码


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

北冰洋以北

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表