【大数据学习 | Spark】spark-shell开发

瑞星 · 2024-11-20 14:19:29

spark的代码分为两种

复制代码

sc.textFile("/home/hadoop/a.txt")
org.apache.spark.rdd.RDD[String] = /home/hadoop/a.txt MapPartitionsRDD[1] at textFile at

复制代码

rdd弹性分布式数据集合

复制代码

不是单机代码，但是文件不能再某一个呆板上，由于这个命令全部的呆板都会执行。
这个路径肯定要放在hdfs中
题目：第一行代码就读取了数据，为什么第一行没有出现错误？
spark中的方法[算子]它是分为两种

代码的整体逻辑是先利用转换类算子定义逻辑，但是不执行，一旦利用action算子就会触发运算，整体才执行，如许的设计可以大概最大化的减少内存的利用。
以是上传hdfs文件，读取

复制代码

spark-shell整体代码

scala> //在spark-env.sh中配置HADOOP_CONF_DIR,默认会读取hdfs中的文件
scala> sc.textFile("/a.txt")
res6: org.apache.spark.rdd.RDD[String] = /a.txt MapPartitionsRDD[5] at textFile at <console>:26
//放入数据到hdfs中
scala> res6.flatMap(_.split(" "))
res7: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[6] at flatMap at <console>:27
scala> res7.map((_,1))
res8: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[7] at map at <console>:27
scala> res8.groupBy(_._1)
res9: org.apache.spark.rdd.RDD[(String, Iterable[(String, Int)])] = ShuffledRDD[9] at groupBy at <console>:27
//分组完毕的返回值不再是map而是RDD[String,Iterable]
scala> res9.mapValues(_.size)
res10: org.apache.spark.rdd.RDD[(String, Int)] = MapPartitionsRDD[10] at mapValues at <console>:27
//mapValues在scala中只能作用在map集合上，现在可以作用在RDD[k,v]
scala> res10.foreach(println)
//打印数据的时候每个机器都有，因为是分布式执行的

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

0 个回复