雁过留声 发表于 2024-9-9 12:50:50

怎样在Spark键值对数据中,对指定的Key进行输出/筛选/模式匹配

在用键值对RDD进行操纵时,经常会遇到不知道怎样筛选出想要数据的情况,这里提供了一些办理方法


目录

[*]1、对固定的Key数据进行查询
[*]2、对不固定的Key数据进行模糊查询


1、对固定的Key数据进行查询

代码说明:

[*]SparkConf:配置 Spark 应用程序的一些基本信息。
[*]SparkContext:创建 Spark 上下文以在 Spark 中执行操纵。
[*]parallelize:天生一个包罗多个键值对的初始 RDD。
[*]filter:利用 filter 方法筛选出 key 即是指定值的元素。
[*]collect:收集效果并在驱动程序上进行输出。
[*]foreach:用来遍历和打印过滤后的效果。
import org.apache.spark.{SparkConf, SparkContext}

object KeyFilterExample {
def main(args: Array): Unit = {
    // 初始化 SparkContext
    val conf = new SparkConf().setAppName("Key Filter Example").setMaster("local[*]")
    val sc = new SparkContext(conf)

    // 创建一个示例 RDD,包含 key-value 键值对
    val rdd = sc.parallelize(Seq(("a", 1), ("b", 2), ("c", 3), ("a", 4), ("b", 5)))

    // 定义要筛选的特定 key
    val specifiedKey = "a"

    // 使用 filter 操作输出指定的 key 值
    val filteredRdd = rdd.filter { case (key, _) => key == specifiedKey }

    // 输出结果
    filteredRdd.collect().foreach { case (key, value) =>
      println(s"Key: $key, Value: $value")
    }

    // 停止 SparkContext
    sc.stop()
}
}


2、对不固定的Key数据进行模糊查询

代码说明:

[*]SparkConf 和 SparkContext:与之前示例相同,用于初始化 Spark 应用。
[*]parallelize:天生一个包罗多个键值对的初始 RDD。
[*]filter:利用 Scala 的模式匹配功能来筛选出以字母 'a' 开头的 keys。

[*]case (key, _) if key.startsWith("a"):当 key 以 'a' 开头时,返回 true,否则返回 false。

[*]collect:收集效果并在驱动程序上进行输出。
[*]foreach:遍历并打印过滤后的效果。
import org.apache.spark.{SparkConf, SparkContext}

object PatternMatchingKeyExample {
def main(args: Array): Unit = {
    // 初始化 SparkContext
    val conf = new SparkConf().setAppName("Pattern Matching Key Example").setMaster("local[*]")
    val sc = new SparkContext(conf)

    // 创建一个示例 RDD,包含 key-value 键值对
    val rdd = sc.parallelize(Seq(("apple", 1), ("banana", 2), ("apricot", 3),
                                  ("berry", 4), ("avocado", 5)))

    // 使用 filter 操作与模式匹配筛选以 'a' 开头的 keys
    val patternMatchedRdd = rdd.filter {
      case (key, _) if key.startsWith("a") => true
      case _ => false
    }

    // 输出结果
    patternMatchedRdd.collect().foreach { case (key, value) =>
      println(s"Key: $key, Value: $value")
    }

    // 停止 SparkContext
    sc.stop()
}
}
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 怎样在Spark键值对数据中,对指定的Key进行输出/筛选/模式匹配