Spark快速上手(1)window下环境配置 - ToB企服应用市场:ToB评测及商务社交产业平台

[/code] ③添加spark框架
[img]https://img2022.cnblogs.com/blog/2409071/202206/2409071-20220630150537218-1545502031.png[/img]
[img]https://img2022.cnblogs.com/blog/2409071/202206/2409071-20220630150519945-1971768785.png[/img]
[img]https://img2022.cnblogs.com/blog/2409071/202206/2409071-20220630150710639-344044536.png[/img]
这样，scala中就能正常导入spark包了
[img]https://img2022.cnblogs.com/blog/2409071/202206/2409071-20220630150759685-749726147.png[/img]
④hadoop 相关需要注意的配置
如果是直接使用的我传的文件，只需要添加系统变量 HADOOP_HOME:hadoop文件夹路径
Path:hadoop文件夹/bin 路径即可
如果使用的hadoop文件是自己的，请满足提示①的前提下完成上述步骤
⑤wordCount.scala 样例
代码如下
[code]package demo import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext} object wordCount {
def main(args: Array[String]): Unit = {
// 创建 Spark 运行配置对象
val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount")
// 创建 Spark 上下文环境对象（连接对象）
val sc : SparkContext = new SparkContext(sparkConf)
// 读取文件数据
val fileRDD: RDD[String] = sc.textFile("input/word.txt")
// 将文件中的数据进行分词
val wordRDD: RDD[String] = fileRDD.flatMap( _.split(" ") )
// 转换数据结构 word => (word, 1)
val word2OneRDD: RDD[(String, Int)] = wordRDD.map((_,1))
// 将转换结构后的数据按照相同的单词进行分组聚合
val word2CountRDD: RDD[(String, Int)] = word2OneRDD.reduceByKey(_+_)
// 将数据聚合结果采集到内存中
val word2Count: Array[(String, Int)] = word2CountRDD.collect()
// 打印结果
word2Count.foreach(println)
//关闭 Spark 连接
sc.stop()
}
}

复制代码

需要在demo目录下创建 input文件夹，并在其中添加word.txt文件 ⑥关于log日志： 运行程序过程中会产生大量日志，为了更好地查看执行结果，可以在src/main/resources目录下创建log4j.properties文件,添加 日志配置来取消显示 spark包中提供对应的模板，不过是临时文件。

复制代码

[/code][img]https://img2022.cnblogs.com/blog/2409071/202206/2409071-20220630152951218-105662405.png[/img]
将新文档中 rootCategory一行中第一个值改为ERROR即可
⑦[b]笔者在尝试运行scala示例过程中曾报出 xxx not found的错误，后经排查发现是部分框架文件没用成功传至maven仓库中，后通过手动添加转移的办法解决了这一问题。[b]经检查，maven仓库地址在C盘符(应为idea默认目录)，故[/b]笔者认为该情况的发生可能跟开发环境没有赋予管理员权限运行有关。[/b]
[code]

复制代码