数据仓库与分析Spark 核心概念与基础编程实践：RDD、DataFrame 和 Dataset

王國慶 发表于 2024-12-31 20:08:38

Spark 核心概念与基础编程实践：RDD、DataFrame 和 Dataset

https://i-blog.csdnimg.cn/direct/60b413423e374034a9b88eb5bf52fc55.png

Apache Spark 是一个广泛应用于大数据处置惩罚的分布式盘算框架，它支持高速数据处置惩罚和复杂的盘算使命。Spark 提供了三种主要的数据抽象：RDD（弹性分布式数据集）、DataFrame 和 Dataset，它们是 Spark 编程的核心。每种数据抽象都有其特点、优势和使用场景，明白它们的区别和关系，可以资助我们在实际工作中选择最合适的工具。
本文将深入论述这三种数据抽象的概念、特点及其相互转换关系，此外，我们还将通过具体的编程案例，展示如何使用 Spark 进行数据读取、转换和存储操作，并对比不同数据抽象在不同场景下的性能表现。
一、Spark 中的三种核心数据抽象

1.1 RDD（弹性分布式数据集）

RDD 是 Spark 中最基础的数据抽象，表示一个分布式的、稳定的数据集合。RDD 是不可变的，全部的转换操作都会天生新的 RDD。它是分布式盘算的根本单元，支持并行盘算和容错能力。RDD 的主要特点如下：

[*]不可变性：一旦创建，RDD 就不可修改。全部的数据操作（如 map、filter、reduce）都会天生新的 RDD。
[*]分区：RDD 是基于分区的，数据分布在多个盘算节点上，每个分区由一个使命处置惩罚。
[*]容错性：RDD 使用血统信息（lineage）来追踪转换步调，当某个分区丢失时，可以通过血统信息重新盘算。
[*]操作类型：

[*]转换操作（Transformation）：如 map()、filter()、flatMap() 等，返回新的 RDD。
[*]行动操作（Action）：如 collect()、count()、reduce() 等，触发实际的盘算。

创建 RDD 示例：
// 从集合创建 RDD
val data = Seq(1, 2, 3, 4, 5)
val rdd = sc.parallelize(data)

// 进行转换操作
val doubledRdd = rdd.map(x => x * 2)

// 行动操作
val result = doubledRdd.collect()
println(result.mkString(", ")) // 输出: 2, 4, 6, 8, 10
1.2 DataFrame

DataFrame 是 Spark SQL 中的核心数据抽象，类似于关系型数据库中的表。DataFrame 提供了丰富的操作接口，支持布局化数据的查询和分析。它是基于 RDD 封装的，具有类型推断、查询优化和 Catalyst 优化器的优势。
DataFrame 的主要特点包括：

[*]布局化数据：DataFrame 具有列名和数据类型，可以看作是一个分布式的表格。
[*]优化执行：DataFrame 使用 Catalyst 查询优化器自动优化执行计划，具有更高的性能。
[*]支持 SQL 查询：DataFrame 可以通过 SQL 查询进行操作，支持与关系型数据库的类似操作。
[*]支持多种数据源：DataFrame 支持多种数据源，如 HDFS、Hive、JSON、CSV、Parquet 等。
创建 DataFrame 示例：
// 从 CSV 文件读取数据
val df = spark.read.option("header", "true").csv("path/to/file.csv")

// 执行数据操作
val resultDf = df.select("name", "age").filter("age > 30")
resultDf.show()
1.3 Dataset

Dataset 是 Spark 1.6 引入的一种新的数据抽象，结合了 RDD 和 DataFrame 的长处。Dataset 提供了强类型安全，类似于 RDD 的 API，同时它也支持 DataFrame 的 SQL 风格操作。
Dataset 的主要特点：

[*]强类型：Dataset 是类型安全的，在编译时进行类型检查，制止了运行时的类型错误。
[*]优化执行：Dataset 享受 DataFrame 的优化执行，使用 Catalyst 查询优化器进行查询优化。
[*]支持多种操作：Dataset 既支持类似于 RDD 的函数式操作，又可以通过 SQL 查询进行处置惩罚。
[*]与 RDD 和 DataFrame 的互操作性：Dataset 可以与 RDD 和 DataFrame 相互转换。
创建 Dataset 示例：
// 定义一个 case class
case class Person(name: String, age: Int)

// 从 JSON 文件读取数据并转换为 Dataset
val ds = spark.read.json("path/to/file.json").as

// 使用 Dataset 的强类型操作
val resultDs = ds.filter(_.age > 30).map(_.name)
resultDs.show()
二、RDD、DataFrame 和 Dataset 之间的转换

RDD、DataFrame 和 Dataset 之间可以相互转换。以下是常见的转换方法：

[*] 从 RDD 创建 DataFrame：通过 toDF() 方法将 RDD 转换为 DataFrame。
示例：
val rdd = sc.parallelize(Seq((1, "Alice"), (2, "Bob")))
val df = rdd.toDF("id", "name")

[*] 从 DataFrame 创建 Dataset：使用 as[] 方法将 DataFrame 转换为 Dataset。
示例：
val df = spark.read.json("path/to/file.json")
val ds = df.as// 将 DataFrame 转换为 Dataset

[*] 从 Dataset 创建 RDD：可以通过 rdd 方法将 Dataset 转换为 RDD。
示例：
val ds = spark.read.json("path/to/file.json").as
val rdd = ds.rdd// 将 Dataset 转换为 RDD

[*] 从 Dataset 创建 DataFrame：Dataset 是类型化的 DataFrame，使用 toDF() 方法将 Dataset 转换为 DataFrame。
示例：
val ds = spark.read.json("path/to/file.json").as
val df = ds.toDF()// 将 Dataset 转换为 DataFrame

三、数据读取、转换与存储实践

接下来，我们通过一个案例来演示如何使用这三种数据抽象进行数据的读取、转换和存储。
3.1 数据读取

Spark 支持多种数据源，如 HDFS、当地文件系统、Hive、JDBC 等。这里我们以读取当地 CSV 文件为例：
// 从 CSV 文件读取 DataFrame
val df = spark.read.option("header", "true").csv("path/to/data.csv")
3.2 数据转换

在读取数据后，我们可以进行一系列的转换操作，包括过滤、映射、聚合等。假设我们有一个员工数据集，必要筛选出年龄大于 30 的员工并盘算他们的平均工资。
// 过滤和聚合操作
val resultDf = df.filter("age > 30")
.groupBy("department")
.agg(avg("salary").alias("avg_salary"))

resultDf.show()
如果我们使用的是 Dataset，可以借助强类型 API 进行转换：
case class Employee(name: String, age: Int, salary: Double, department: String)

val ds = spark.read.json("path/to/employees.json").as

val resultDs = ds.filter(_.age > 30)
.groupBy("department")
.agg(avg("salary").alias("avg_salary"))

resultDs.show()
3.3 数据存储

最终，处置惩罚完成的数据可以存储到不同的输出介质中，Spark 支持将效果写入各种格式，如 CSV、JSON、Parquet、数据库等。
// 将 DataFrame 写入 CSV 文件
resultDf.write.option("header", "true").csv("path/to/output.csv")

// 将 Dataset 写入 Parquet 文件
resultDs.write.parquet("path/to/output.parquet")
四、性能对比：RDD、DataFrame 和 Dataset

不同的数据抽象实用于不同的场景，而且它们的性能表现也有所差别：

[*]RDD：提供了最大的灵活性和控制，但由于缺乏优化，性能通常不如 DataFrame 和 Dataset。RDD 实用于必要复杂操作和定制盘算的场景。
[*]DataFrame：提供 SQL 风格的操作接口，而且通过 Catalyst 优化器进行查询优化，性能较好。实用于布局化数据分析和大规模数据处置惩罚使命。
[*]Dataset：结合了 RDD 的强类型特性和 DataFrame 的优化执行特性，保举用于大多数数据处置惩罚使命，尤其是在必要强类型检查和高性能的场景下。
总的来说，在实际开发中，如果你的数据有明白的布局，而且不必要进行复杂的定制操作，保举使用 DataFrame 或 Dataset，它们会自动优化执行，提高盘算服从。如果必要进行复杂的操作或处置惩罚非布局化数据，RDD 大概是更合适的
选择。
五、总结

Spark 提供了三种核心的数据抽象：RDD、DataFrame 和 Dataset。RDD 是最根本的分布式数据集抽象，实用于低级别的操作；DataFrame 提供了 SQL 查询风格和优化的执行引擎，适合布局化数据处置惩罚；Dataset 结合了强类型和优化执行，是保举的默认数据抽象。通过相识它们的特点和转换关系，可以资助我们在实际大数据处置惩罚使命中选择合适的工具，提升数据处置惩罚的服从和性能。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

Spark 核心概念与基础编程实践：RDD、DataFrame 和 Dataset