怎样在Spark键值对数据中,对指定的Key进行输出/筛选/模式匹配 ...

打印 上一主题 下一主题

主题 507|帖子 507|积分 1521

在用键值对RDD进行操纵时,经常会遇到不知道怎样筛选出想要数据的情况,这里提供了一些办理方法


目录


1、对固定的Key数据进行查询

代码说明:

  • SparkConf:配置 Spark 应用程序的一些基本信息。
  • SparkContext:创建 Spark 上下文以在 Spark 中执行操纵。
  • parallelize:天生一个包罗多个键值对的初始 RDD。
  • filter:利用 filter 方法筛选出 key 即是指定值的元素。
  • collect:收集效果并在驱动程序上进行输出。
  • foreach:用来遍历和打印过滤后的效果。
  1. import org.apache.spark.{SparkConf, SparkContext}
  2. object KeyFilterExample {
  3.   def main(args: Array[String]): Unit = {
  4.     // 初始化 SparkContext
  5.     val conf = new SparkConf().setAppName("Key Filter Example").setMaster("local[*]")
  6.     val sc = new SparkContext(conf)
  7.     // 创建一个示例 RDD,包含 key-value 键值对
  8.     val rdd = sc.parallelize(Seq(("a", 1), ("b", 2), ("c", 3), ("a", 4), ("b", 5)))
  9.     // 定义要筛选的特定 key
  10.     val specifiedKey = "a"
  11.     // 使用 filter 操作输出指定的 key 值
  12.     val filteredRdd = rdd.filter { case (key, _) => key == specifiedKey }
  13.     // 输出结果
  14.     filteredRdd.collect().foreach { case (key, value) =>
  15.       println(s"Key: $key, Value: $value")
  16.     }
  17.     // 停止 SparkContext
  18.     sc.stop()
  19.   }
  20. }
复制代码


2、对不固定的Key数据进行模糊查询

代码说明:

  • SparkConfSparkContext:与之前示例相同,用于初始化 Spark 应用。
  • parallelize:天生一个包罗多个键值对的初始 RDD。
  • filter:利用 Scala 的模式匹配功能来筛选出以字母 'a' 开头的 keys。

    • case (key, _) if key.startsWith("a"):当 key 以 'a' 开头时,返回 true,否则返回 false。

  • collect:收集效果并在驱动程序上进行输出。
  • foreach:遍历并打印过滤后的效果。
  1. import org.apache.spark.{SparkConf, SparkContext}
  2. object PatternMatchingKeyExample {
  3.   def main(args: Array[String]): Unit = {
  4.     // 初始化 SparkContext
  5.     val conf = new SparkConf().setAppName("Pattern Matching Key Example").setMaster("local[*]")
  6.     val sc = new SparkContext(conf)
  7.     // 创建一个示例 RDD,包含 key-value 键值对
  8.     val rdd = sc.parallelize(Seq(("apple", 1), ("banana", 2), ("apricot", 3),
  9.                                   ("berry", 4), ("avocado", 5)))
  10.     // 使用 filter 操作与模式匹配筛选以 'a' 开头的 keys
  11.     val patternMatchedRdd = rdd.filter {
  12.       case (key, _) if key.startsWith("a") => true
  13.       case _ => false
  14.     }
  15.     // 输出结果
  16.     patternMatchedRdd.collect().foreach { case (key, value) =>
  17.       println(s"Key: $key, Value: $value")
  18.     }
  19.     // 停止 SparkContext
  20.     sc.stop()
  21.   }
  22. }
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

雁过留声

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表