2023_Spark_实验九:编写WordCount程序(Scala版)

打印 上一主题 下一主题

主题 865|帖子 865|积分 2595

需求:
1、做某个文件的词频统计//某个单词在这个文件出现次数
步调:

  • 文件单词规律(空格分开)
  • 单词切分
  • 单词的统计(k,v)->(k:单词,V:数量)
  • 打印

框架:

  • 单例对象,main()
  • 创建CONF
  • 创建SC-->读取文件的方式--》RDD
  • RDD进行处置惩罚
  • 闭资源关
一、新建object类取名为WordCount


2、编写如下代码
  1. import org.apache.spark.{SparkConf, SparkContext}
  2. object WordCount {
  3.     def main(args: Array[String]): Unit = {
  4.         System.setProperty("hadoop.home.dir","D:\\hadoop\\hadoop-2.8.0")
  5.         val sparkConf= new SparkConf().setAppName("WordCount").setMaster("local") //设置为本地模式
  6.         val sc = new SparkContext(sparkConf)
  7.         sc.setLogLevel("WARN")
  8.         val resultArray = sc.textFile(path = "file:///d:/temp/a.txt")
  9.             .flatMap(_.split(" "))
  10.             .map((_,1))
  11.             .reduceByKey(_+_)
  12.             .collect()
  13.         resultArray.foreach(println )
  14.         sc.stop()
  15.     }
  16. }
复制代码
3、本地运行,检察运行结果如下:

办理无法下载spark与打包插件的办法
maven打包插件与spark所需依靠下载地址:
链接:百度网盘 请输入提取码
提取码:jnta
办理步调:
到网盘下载maven打包插件与spark依靠,网盘吗中的内容如下:

  • 将下载的插件plugins.rar解压,并复制插件文件夹到你本地maven仓库下
  • 将下载的spark依靠spark.rar解压,并复制spark文件夹到你本地maven仓库下
  • 重启idea,重新build下工程
将下载的插件plugins.rar解压,并复制插件文件夹到你本地maven仓库下

将下载的spark依靠spark.rar解压,并复制spark文件夹到你本地maven仓库下


重启idea,重新build下工程




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

欢乐狗

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表