ToB企服应用市场:ToB评测及商务社交产业平台

标题: spark-python [打印本页]

作者: 我可以不吃啊    时间: 2024-9-9 17:57
标题: spark-python
前言:本帖子是看了黑马教学视频结合spark八股,记录一下spark的知识.
一.spark介绍

1.1 spark的运行模式


1.2 spark的架构角色

在讨论spark的架构角色时,首先先回顾一下yarn的架构角色.

spark架构角色:



二.standalone 运行原理
2.1standalone架构

   

  standalone中有三类进程:
  
   

  在 standalone 模式下, master进程和 worker进程是固定的。
开启一个任务,就会在master进程中开启一个对应的 Driver线程,然后在worker进程中开启一个或者多个 Executor线程
开启两个任务,就会在master进程中开启两个对应的 Driver线程,对应的Executor各自汇报给对应的Driver,Executor数目根据你任务环境而定。
  在该图中:
  
  2.2  standalone的集群环境安装

2.2.1 集群规划


2.2.2 spark集群摆设


这里安装步调不做介绍了(由于纯看课,没有实操)

2.3 spark步伐运行层次架构

   

  
    spark在应用步伐实行时,大概可以分为4个层级:
  application-->job-->stage-->task
  当我们在实行时,一个应用步伐(application)可能比较大,会分配出多个子任务(job),最少一个子任务,每个任务有差别的stage运行,先干什么,在干什么,那阶段又可以分成几个task.
  
  总结:

 2.4 StandAlone HA

2.4.1 StandAlone HA 运行原理

StandAlone HA是由于StandAlone 工作架构是主从架构,master只有一个,会出现单点故障,如果主节点(master)宕机的话,那么整个集群就没有办法正常工作了,StandAlone HA就是为相识决这个问题而产生的.
   基于zookeeper的Standby Masters(Standby Masters with ZooKeeper)--可以用于生产环境。     ZooKeeper提供了一个Leader Election机制,利用这个机制可以包管固然集群存在多个Master,但是只有一个是Active (活跃)的,其他的都是Standby(备份)。当Active的Master出现故障时,别的的一个Standby Master会被推举出来。  
2.4.2 基于zookeeper搭建spark的Standalone HA集群.

这里不做过多介绍,没有搭建.
2.4.3 总结


三.spark on yarn的环境搭建(很重要实际生产中用)

这一节比较重要,但是这里仍然不搭建,条记会详细记录.
3.1 spark on yarn的本质

首先如果我们想要一个稳定生产的spark环境,那么最优的选择就是构建:StandAlone HA集群.
其次,一样平常企业资源比较紧缺,根本上都会有hadoop集群,yarn和spark standalone都是可以进行资源调理的,再搭建standalone就比较费资源,那就出现了spark on yarn.
   对于spark on yarn,无需摆设spark集群,只要找一台服务器,充当spark的客户端,即可提交任务到yarn集群中运行.(这里找一台服务器充当客户端,什么意思?standalone 模式下不是这样嘛?)
  答:
  


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4