from pyspark.sql import functions as F
# 计算每个用户的总消费金额和购买次数
user_analysis = cleaned_data.groupBy("user_id") \
.agg(F.sum("amount").alias("total_amount"),
F.count("product_id").alias("purchase_count"))
上述代码中,groupBy("user_id")表现按照用户 ID 举行分组,agg方法用于举行聚合操作。F.sum("amount").alias("total_amount")计算每个用户的总消费金额,并将结果命名为total_amount;F.count("product_id").alias("purchase_count")计算每个用户的购买次数,并将结果命名为purchase_count。