local[3]:使用当地模式,并行度是 3,这个并行度最好和 CPU 的核数一致,一般并行度 <= CPU 的核数。
local :并行度 = CPU 的核数。
(二)效果文件数量与 local 模式的关系
文件的效果经常是 2 个文件,这跟分区数有关系,跟 local = N 也有肯定的关系。其规律是 min(N,2),例如如果是 local [1],最后的文件数量就是 1。
如果在 local 模式下,想要效果文件是 10,可以使用 sc.textFile("../datas/wordcount/data.txt",10) 的方式来设置分区数。
六、总结
本文详细介绍了 PySpark 当地开发情况的搭建过程,包括 JDK、Hadoop、Anaconda、PySpark 的安装以及 Pycharm 工程的创建。同时,深入讲解了代码编写、当地开发案例(如 WordCount、处理特殊分隔符、读取 hdfs 数据、获取外部变量)、Spark 程序的监控和 local 模式下效果文件数量问题等内容。通过掌握这些知识和技能,读者可以在 Windows 当地情况中高效地举行 PySpark 开发,处理大规模数据,办理现实业务中的数据分析和处理问题。渴望本文能为读者在 PySpark 学习和实践的道路上提供有力的帮助,让读者可以或许更好地使用这个强大的工具来发掘数据的代价。