Hadoop概述-浅浅入门一下

宁睿 · 2024-8-11 08:46:32

Hadoop简介:是Apache旗下的一个用Java语言实现开源软件框架，是一个存储和计算大规模数据的软件平台。
Hadoop劈头: Doug Cutting 创建的，最早劈头一个Nutch项目。
三架马车：谷歌的三篇论文加速了hadoop的研发
狭义上来说:Hadoop指Apache这款开源框架，它的焦点组件有：HDFS,MR,YANR
广义上来说:Hadoop通常是指一个更广泛的概念——Hadoop生态圈
一、分布式和集群的理解
分布式：就是多个人配合做一件事，保证效率（多个人一起干活）
  比如，一个人洗菜一个人炒菜一个人上菜
概念：多台服务器协同配合完成同一个大任务

  大数据中分布式的调理重要有2类架构模式——去中心化模式、中心化模式
  ①中心化模式：有一个中心节点（服务器）来统筹其它服务器的工作，同一指挥，同一调派，制止杂乱。也叫做主多从模式，简称主从模式。
  个人理解：有一个老大中心/主节点（服务器）管理他们（从节点），同一管理同一干活
  在大数据中大多数根本框架都是符合中心化模式的。

  ②去中心化模式，没有明确的中心。浩繁服务器之间基于特定规则举行同步协调

  集群：并行/效率、可靠（多个人都可以干这些任务，可以并行大概备份）
  比如，三个厨师都可以做这道菜（并行）可以三个人都做这道菜，也可以（备份）一个人做菜两个人看着他做
概念：多台服务器联合起来独立做类似的任务，可以并行也可以备份

注意: 集群假如客户端请求量(任务量)多,多个服务器同时处置处罚不同请求(不同任务),假如请求量少,一台服务器干活,其他服务器做备份使用
  二、Hadoop架构
1、HDFS:（分布式文件体系）
  特点：
  HDFS存储大文件,把大文件默认切割成128M大小的block块,举行存储
HDFS存储块的时候,会给每个块举行备份(一共三份)
HDFS文件体系可存储超大文件，时效性稍差。
HDFS具有硬件故障检测和自动快速恢复功能。
HDFS为数据存储提供很强的扩展能力。
HDFS存储一样平常为一次写入，多次读取，只支持追加写入，不支持随机修改。
HDFS可在平凡廉价的机器上运行。
  好理解的方式
    可以把它想象成一个超级大的文件柜，这个文件柜分布在多台计算机上，每台计算机上都有多个小抽屉（我们称为“数据块”），用来存放文件的不同部分。
  （数据块是文件存储的基本单元，用于存储文件的实际内容。）

像管理图书馆一样的NameNode和SecondaryNameNode：
- NameNode就像图书馆的馆长，负责记载哪个文件在哪个抽屉（数据块）上，确保能找到所需文件的全部部分。
- SecondaryNameNode则像副馆长，帮助馆长确保记载是最新的，防止丢失。
像存储文件的DataNodes：
- DataNodes就像存放书籍的架子，实际存储文件的各个部分。每个DataNode知道本身架子（抽屉）上有哪些书（文件的哪些部分）。

  基本概念：
  HDFS:全名Hadoop Distributed File System（分布式文件体系）
  用于解决海量数据存储
   元数据: 形貌焦点数据的数据（如数据创建者、创建时间、存储位置等，其实就是各种属性）
   NameNode:集群当中的主节点，重要用于管理集群当中的各种数据
   SecondaryNameNode:重要能用于辅助NameNode举行文件块元数据存储
   DataNode:集群当中的从节点，重要用于存储真实的海量的业务数据
      Client：发请求就是客户端。文件切分：文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后举行存储，与 NameNode 交互，获取文件的位置信息，与 DataNode 交互，读取大概写入数据。
Client 提供一些下令来管理和访问HDFS，比如启动大概关闭HDFS。

  YARN:（作业调理和集群资源管理的框架）
  好理解的方式
          YARN就像是一个大型的数据工厂的主管，负责分配和管理工厂里的全部资源（比如机器、工具和工人等），以确保工厂能够高效、有序地运行。
  无论是处置处罚大量的订单，还是管理复杂的生产线，YARN都能够游刃有余，确保每个任务都能得到合适的资源，而且按时完成。
    1 、ResourceManager 是工厂的总经理或主管。它负责监管整个工厂的资源（机器、工具、工人等），并确保这些资源能够按照必要分配给各个作业。
          ResourceManager还要监控工厂的整体运行状态，确保作业之间不会因为资源争抢而发生冲突，而且能够高效地完成任务。
    2、NodeManager 则是工厂里的工头或班组长。他们直接受理着工厂的生产线（单个节点），负责监督和指导工人完成作业，并确保他们有足够的资源（如机器、原材料等）举行生产。
          同时，NodeManager还必要向ResourceManager汇报工作进度和资源使用情况，以便ResourceManager可以更好地举行整体规划和调理。

  基本概念
  解决资源任务调理
   ResourceManager: 吸收用户的计算请求任务，并负责集群的资源管理和分配
   NodeManager: 负责执行主节点分配的任务(给MR的计算程序提供资源)

  MapReduce:（分布式运算编程框架）
  好理解的方式
  MapReduce则像是大型的数据工厂里的一种特殊生产线，专门用于处置处罚大量的数据。起首，它将大批量的数据拆分成小份（Map阶段），然后由不同的工人（服务器）同时举行处置处罚。处置处罚完毕后，各个部分的结果会被汇总（Shuffle阶段），最后再举行整合（Reduce阶段），形成最终的产物（分析结果），这个过程非常适合处置处罚大规模数据，因为它可以明显提高效率，减少浪费。
          1、Map：Map阶段类似于数据工厂中的拆分和初步加工环节。在这个阶段，原始数据被拆分成小份（即键值对），并由不同的工人（服务器）举行初步处置处罚。每个工人将数据转换为一系列中心键值对，这些键值对应着数据的特性及其关联信息。
          2、Shuffle：Shuffle阶段则类似于数据汇总和排序环节。这一阶段将Map阶段的输出按键举行排序和分组，确保具有类似键的键值对被传输到同一个Reducer节点。Shuffle是高效数据处置处罚的关键，因为它通过合并和排序操纵，为最终的数据汇总做好了准备。
          3、Reduce：Reduce阶段则是最后的整合和产出环节。在这一阶段，全部类似的键值对被合并并通报给Reducer函数举行处置处罚，最终生成所需的分析结果或输出数据。

  基本概念
  解决海量数据计算
   怎样计算: 焦点思想就是分而治之 Map负责分解,Reduce负责合并
   MR程序: 使用java/python然后去编写MR程序,成本高
   （成本高怎样解决? 在hive平台上编写sql,执行sql底层自动转为MR程序）
MapReduce计算必要的数据和产生的结果必要HDFS来举行存储
MapReduce的运行必要由Yarn集群来提供资源调理。
  三、hadoop集群配置好的情况下，集群启动下令
# 一键启动hdfs和yarn集群
[root@node1 ~]# start-all.sh
  （关闭下令：stop-all.sh）
  # 启动jobHistory服务（JobHistory用来记载已经finished的mapreduce运行日记，日记信息存放于HDFS目录中）
[root@node1 ~]# mapred --daemon start historyserver
  （关闭下令：mapred --daemon stop historyserver）

  页面：
  进入C:\Windows\System32\drivers\etc 目录打开hosts文件,添加以下内容:（下面的ip1、ip2、ip3为假造机的IP所在）
  ip1 node1
ip2 node2
ip3 node3
  配置完成后可以用以下格式访问
  HDFS: http://node1:9870/
  YARN: http://node1:8088/
  jobhistory: http://node1:19888/
  注意: 本地映射假如没有配置,就会报hdfs页面不能上传文件等错误...
  假如懒得配置，可以用ip所在去访问
  HDFS: http://ip所在:9870/
  YARN: http://ip所在:8088/
  jobhistory: http://ip所在:19888/
  四、hdfs的shell下令
在安装好hadoop情况之后，可以执行类似于Linux的shell下令对文件的操纵，如ls、mkdir、rm等,对hdfs文件体系举行操纵检察,创建,删除等。
  hdfs的shell下令有两种格式：
  1、hadoop fs -下令参数
  2、hdfs dfs -下令参数

  假如在使用下令的时候没有加根目录/,默认访问的是/user/root ，也就是在此路径执行下令。
  检察目录下内容: hdfs dfs -ls 目录的绝对路径
创建目录: hdfs dfs -mkdir 目录的绝对路径
创建文件: hdfs dfs -touch 文件的绝对路径
移动目录/文件: hdfs dfs -mv 要移动的目录大概文件的绝对路径目标位置绝对路径
复制目录/文件: hdfs dfs -cp 要复制的目录大概文件的绝对路径目标位置绝对路径
删除目录/文件: hdfs dfs -rm [-r] 要删除的目录大概文件的绝对路径
检察文件的内容: hdfs dfs -cat 要检察的文件的绝对路径（cat还有head,tail也能检察）
检察hdfs其他shell下令帮助: hdfs dfs --help
  把本地文件内容追加到hdfs指定文件中: hdfs dfs -appendToFile 本地文件路径 hdfs文件绝对路径
  linux本地上传文件到hdfs中: hdfs dfs -put linux本地要上传的目录大概文件路径 hdfs中目标位置绝对路径
hdfs中下载文件到liunx本地: hdfs dfs -get hdfs中要下载的目录大概文件的绝对路径 linux本地目标位置路径
  增补
绝对路径：从根目录开始计算，不停到目标文件或目录，给出一个完整的路径，不会随着当前位置的
  表达方式：始终以根目录(/或盘符)开头，并一起指明直至目标文件或目录的具体位置

  相对路径：相对于已知的当前路径而言，它依靠于当前所在的位置，并会根据这个位置来形貌目标文件的位置。
  表达方式：通常不包罗根目录信息，使用“../”表现上一级目录，使用“./”表现当前目录，相对更加简便。


免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

Hadoop概述-浅浅入门一下

0 个回复

快速回复

楼主热帖

标签云