Spark的性能调优——RDD

光之使者  金牌会员 | 2024-6-22 22:59:45 | 来自手机 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 814|帖子 814|积分 2442


前言

RDD 是 Spark 对于分布式数据集的抽象,每一个 RDD 都代表着一种分布式数据形态。比如 lineRDD,它表现数据在集群中以行(Line)的形式存在;而 wordRDD 则意味着数据的形态是单词,分布在盘算集群中。 



参数

参数是函数、或者返回值是函数的函数,我们把这类函数统称为“高阶函数”(Higher-order Functions)。换句话说,这 4 个算子,都是高阶函数。 

 

  1. import org.apache.spark.rdd.RDD
  2. val rootPath: String = _
  3. val file: String = s"${rootPath}/wikiOfSpark.txt"
  4. // 读取文件内容
  5. val lineRDD: RDD[String] = spark.sparkContext.textFile(file)
  6. // 以行为单位做分词
  7. val wordRDD: RDD[String] = lineRDD.flatMap(line => line.split(" "))
  8. val cleanWordRDD: RDD[String] = wordRDD.filter(word => !word.equals(""))
  9. // 把RDD元素转换为(Key,Value)的形式
  10. val kvRDD: RDD[(String, Int)] = cleanWordRDD.map(word => (word, 1))
  11. // 按照单词做分组计数
  12. val wordCounts: RDD[(String, Int)] = kvRDD.reduceByKey((x, y) => x + y)
  13. // 打印词频最高的5个词汇
  14. wordCounts.map{case (k, v) => (v, k)}.sortByKey(false).take(5)
复制代码
 
在 RDD 的编程模子中,一共有两种算子,Transformations 类算子和 Actions 类算子。开辟者必要使用 Transformations 类算子,界说并描述数据形态的转换过程,然后调用 Actions 类算子,将盘算效果收集起来、或是物化到磁盘。
换句话说,开辟者调用的各类 Transformations 算子,并不立即执行盘算,当且仅当开辟者调用 Actions 算子时,之前调用的转换算子才会付诸执行。在业内,这样的盘算模式有个专门的术语,叫作“延迟盘算”(Lazy Evaluation)。延迟盘算很好地解释了本讲开头的题目:为什么 Word Count 在执行的过程中,只有最后一行代码会花费很长时间,而前面的代码都是瞬间执行完毕的呢?


 

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

光之使者

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表