ToB企服应用市场:ToB评测及商务社交产业平台

标题: 某大型商超客户采购数据分析（Spark实战） [打印本页]

作者: 老婆出轨 时间: 2024-11-14 14:47
标题: 某大型商超客户采购数据分析（Spark实战）

写了一些使用sparksql以及spark机器学习来进行数据分析的东西，盼望能给大家做一些参考

项目需求：对某大型商超客户采购数据集进行数据分析
数据来源：https://www.heywhale.com/mw/dataset/656069b19a74cc18269207c4/content

起首使用Spark读入数据集，读入文件前要先将文件转为csv格式

val sparConf = new SparkConf().setMaster("local").setAppName("WordCount")
val sc = new SparkContext(sparConf) //建立Spark连接
val spark = SparkSession.builder().getOrCreate()
val df = spark.read.option("header", "true").csv("E:\\ShuJu\\sparkinput\\SuperStore\\SuperStore.csv") //读入文件

复制代码

总体贩卖情况

复制代码

5.1万个订单，贩卖商品总数为19.8万件，贩卖额1261.8万刀，利润146.7万刀

对各个地域市场的贩卖情况进行统计

df.groupBy("Market").agg(count("Order ID"), sum("Quantity"), sum("Sales"), sum("Profit"))
.show()
//对各个地区市场的销售情况进行统计

复制代码

按照国家进行分组，按照订单个数进行递减排序，获取订单量前10的国家

复制代码

从图中可以看出美国对该商超的需求比较大，断层领先的第一名，必要优先对其客户进行关注。

对订单数排名前五的国家进行一次统计

复制代码

前五名为美国、澳大利亚、法国、墨西哥、德国，在全球总订单数中占比为39.7%

对订单商品类别进行检察

复制代码

在该数据集中共有三种产品类别，此中“办公用品”的销量最高，共产生了3万件订单，其次是“科技产品”和“家具”，分别有1万件和9千件

对产品类别下面的子类别进行统计

复制代码

从销量榜上来看，粘结剂，储物盒，艺术品，纸张，椅子，手机等具有很高的销量数据。

对每一个子类别的总贩卖额进行统计分析

复制代码

从图片中可以看出手机、椅子、复印机、书架、储物盒、家用电器、配件、机器、桌子、文件夹的贩卖额从高到低，占有前十名

机器学习部门
这里的数据使用了前一千条来进行测试

对贩卖额进行预测
数据处理

val cleanedData = df.na.fill(Map(
"Postal Code" -> "Unknown",
"Sales" -> "0",
"Profit" -> "0",
"Quantity" -> "0",
"Shipping Cost" -> "0",
"Discount" -> "0"
))
// 转换为数值类型
val transformedData = cleanedData
.withColumn("Sales", col("Sales").cast("Double"))
.withColumn("Profit", col("Profit").cast("Double"))
.withColumn("Quantity", col("Quantity").cast("Double"))
.withColumn("Shipping Cost", col("Shipping Cost").cast("Double"))
.withColumn("Discount", col("Discount").cast("Double"))
// 检查转换后的数据类型
transformedData.printSchema()
// 删除包含 null 值的行
val nonNullData = transformedData.na.drop(Seq("Quantity", "Shipping Cost", "Discount"))

复制代码

回归预测

// 特征选择
val featureCols = Array("Quantity", "Shipping Cost", "Discount")
val assembler = new VectorAssembler().setInputCols(featureCols).setOutputCol("features")
val featureData = assembler.transform(nonNullData)
// 划分数据集
val Array(trainingData, testData) = featureData.randomSplit(Array(0.8, 0.2))
// 训练模型
val lr = new LinearRegression()
.setLabelCol("Sales")
.setFeaturesCol("features")
val model = lr.fit(trainingData)
// 进行预测并查看结果
val predictions = model.transform(testData)
predictions.select("features", "Sales", "prediction").show()
// 评估模型
val trainingSummary = model.summary
println(s"RMSE: ${trainingSummary.rootMeanSquaredError}")
println(s"R2: ${trainingSummary.r2}")

复制代码

复制代码

手动关键词Spark数据分析，Spark项目，Spark机器学习，sparksql，大数据

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)