ToB企服应用市场:ToB评测及商务社交产业平台

标题: 大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD [打印本页]

作者: 铁佛    时间: 2024-8-26 13:31
标题: 大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD
点一下关注吧!!!非常感谢!!持续更新!!!

现在已经更新到了:


章节内容

上节完成的内容如下:


Standalone提交

Standalone组成

Standalone 模式下有四个重要的组成部门,分别是:

SparkContext组件

什么是SparkContext

SparkContext 是 Spark 应用程序的主控制器,它负责与 Spark 集群的管理节点(Driver)和工作节点(Workers)进行交互。通过 SparkContext,用户可以提交作业、管理 RDD(弹性分布式数据集)和其他数据集,并执行各种操作。SparkContext 是 Spark 应用程序的基础,每个应用程序在启动时都会创建一个 SparkContext 实例。
SparkContext 的主要职责


SparkContext中的三大组件:



常用的 SparkContext 方法


Standalone提交



Shuffle原理

基本概念

Shuffle的本意是洗牌,目的是为了把牌弄乱。

Shuffle汗青



Hash Base Shuffle V1

简单介绍

Hash-based Shuffle 是 Apache Spark 中数据分布和重新排序的一种方式。Shuffle 是指在不同阶段的任务之间重新分配数据的过程。Hash-based Shuffle 在 Spark 1.x 版本中引入,被称为 Shuffle V1。
Shuffle V1 是 Spark 最初版本利用的 Shuffle 机制,基于 Hash 方法实现数据分布。它的主要特点是通过对数据的键进行哈希处理,将数据分配到相应的 reducer 节点上。Shuffle V1 的实现相对简单,但在大规模数据处理时存在一些局限性,如磁盘 I/O 过多、垃圾采取压力大等。


工作原理

Map 端处理:

Reduce 端处理:

局限性


适用场景

只管 Shuffle V1 存在一些问题,但在小规模数据处理或集群中,Shuffle V1 的性能体现照旧可以接受的,特别是对资源斲丧较少的作业。不过,随着数据规模的增大,Shuffle V1 的局限性会变得明显,因今后续的 Spark 版本引入了更优化的 Shuffle 机制(Shuffle V2 和 Tungsten-Sort Based Shuffle)。
Hash Base Shuffle V2

简单介绍

Hash-Based Shuffle V2 是 Apache Spark 中对最初版本的 Hash-Based Shuffle 进行的改进,旨在解决 Shuffle V1 中存在的一些性能和稳固性问题。Shuffle 是分布式盘算中数据重新分布的重要机制,而 Shuffle V2 的引入大大进步了 Spark 在处理大规模数据集时的性能和效率。
焦点思想

Hash Base Shuffle V2 焦点思想:
允许不同Task复用同一批磁盘文件,有效将多个Task的磁盘文件进行一定水平上的归并,从而大幅度减少磁盘文件的数量,进而提升ShuffleWrite的性能,一定水平上解决了HashV1中的问题,但不彻底。
Hash Shuffle 规避了排序,进步了性能,总的来说在 Hash Shuffle过程中生成了海量的小文件

Shuffle V2 的改进点

归并输出文件:

磁盘 I/O 优化:

内存斲丧优化:

容错性改进:

Shuffle V2 的工作原理

Map 端处理:

适用场景

Shuffle V2 适用于绝大多数的 Spark 作业,特别是在处理大规模数据集时结果尤为明显。它减少了磁盘 I/O 操作,优化了内存斲丧,并进步了系统的容错性。对于必要高性能和稳固性的场景,Shuffle V2 是更好的选择。
Sort Base Shuffle



RDD编程优化

RDD复用

避免创建重复的RDD,在开辟过程中要注意,对于同一份数据,只应该创建一个RDD,不要创建过多个RDD来表现同一份数据。
RDD缓存/长期化


巧用 filter


利用高性能算子


设置合理的并行度


广播大变量



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4