Hadoop+Spark 笔记 2025/4/21

打印 上一主题 下一主题

主题 1517|帖子 1517|积分 4551

读书笔记


界说

1. 大数据(Big Data)
   - 指传统数据处置惩罚工具难以处置惩罚的海量、高速、多样的数据集合,通常具备3V特性(Volume体量大、Velocity速率快、Variety多样性)。扩展后还包括Veracity(真实性)和Value(代价)。
2. Hadoop
   - 一个开源的分布式盘算框架,用于存储和处置惩罚大规模数据集。核心组件包括HDFS(存储)和MapReduce(盘算),具有高容错性横向扩展本领。
3. HDFS(Hadoop Distributed File System)
   - Hadoop的分布式文件系统,设计用于**廉价硬件集群**。特点:
     - 分块存储(默认128MB/块)
     - 多副本机制(默认3副本)
     - 主从架构(NameNode管理元数据,DataNode存储现实数据)
4. MapReduce
   - 一种批处置惩罚编程模子,分为两个阶段:
     - Map阶段:将任务分割成更小任务交给每台服务器分别运行,也就是并行处置惩罚输入数据(映射)
     - Reduce阶段:聚合Map结果(归约)
   - 适合离线大规模数据处置惩罚,但磁盘I/O开销较大。
5. Spark
   - 基于内存的分布式盘算引擎,相比MapReduce优势:
     - 内存盘算(比Hadoop快10-100倍)
     - 支持DAG(有向无环图)优化实行操持
     - 提供SQL、流处置惩罚、图形处置惩罚、机器学习等同一API(Spark SQL/Streaming/GraphX/MLlib)
6. 机器学习(Machine Learning)
   - 通过算法让盘算机从数据中自动学习规律并做出猜测/决策,重要分为:
     - 监视学习(如分类、回归)
     - 无监视学习(如聚类、降维)
     - 强化学习(通过奖励机制学习)
关键区别:Hadoop基于磁盘批处置惩罚,Spark基于内存迭代盘算,机器学习则是数据分析的高级应用方法。
安装Hadoop

1.假造机软件安装(搭建Hadoop cluster集群时必要很多台假造机)
2.安装Ubuntu操纵系统(hadoop最重要在Linux操纵系统环境下运行)
3.安装Hadoop Single Node Cluster(只以一台机器来创建Hadoop环境)
   

  • 安装JDK(Hadoop是java开发的,必须先安装JDK)
  • 设置SSH无密码登录(Hadoop必须通过SSH与本土地算机以及其他主机连接,以是必须设置SSH)
  • 下载安装Hadoop(官网下载Hadoop,安装到Ubuntu中)
  • 设置Hadoop环境变量(设置每次用户登录时必须要设置的环境变量)
  • Hadoop配置文件的设置(在Hadoop的/usr/local/hadoop/etc/hadoop的目录下,有很多配置设置文件)
  • 创建并格式化HDFS目录(HDFS目录是存储HDFS文件的地方,在启动Hadoop之前必须先创建并格式化HDFS目录)
  • 启动Hadoop(全部设置完成后启动Hadoop,并检察Hadoop相关进程是否已经启动)
  • 打开Hadoop Web界面(Hadoop界面可以检察当前Hadoop的状态:Node节点、应用程序、任务运行状态)
    常用命令:
  启动HDFS
  1. start-dfs.sh
复制代码
启动YARN(启动Hadoop MapReduce框架YARN)
  1. start-yarn.sh
复制代码
同时启动HDFS和YARN
  1. start-all.sh
复制代码
使用jps检察已经启动的进程(检察NameNode、DataNode进程是否启动)
  PS:因为只有一台服务器,以是全部功能都会合在一台服务器中,可以看到:
  

  • HDFS功能:NameNode、Secondary NameNode、DataNode已经启动
  • MapReduce2(YARN):Resource Manager、NodeManager已经启动
  1. jps
复制代码
   监听端口上的网络服务:
  打开Hadoop Resource-Manager Web界面
  1. http://localhost:8088/
复制代码
 NameNode HDFS Web界面
  1. http://localhost:50070/
复制代码
4.Hadoop Multi Node Cluster的安装(至少有四台服务器,才能发挥多台盘算机并行的优势。不过我只有一个电脑,只能创建四台假造主机演练)

Hadoop的基本功能

1.HDFS

常用HDFS命令:

HDFS 常见命令 -CSDN博客
   回头再写那些常用命令
  2.MapReduce

批处置惩罚为主。

首先使用Map将待处置惩罚的数据分割成很多的小份数据,由每台服务器分别运行。
再通过Reduce程序举行数据合并,最后汇总整理出结果。
   单词计数
  

Spark 

Spark的Cluster模式架构图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大号在练葵花宝典

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表