Java语言在Spark3.2.4集群中使用Spark MLlib库完成XGboost算法 - ToB企服应用市场:ToB评测及商务社交产业平台

import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.evaluation.RegressionEvaluator;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.regression.{GBTRegressionModel, GBTRegressor};
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SparkSession;

复制代码

SparkSession spark = SparkSession.builder().appName("XGBoost").master("local[*]").getOrCreate();
DataFrame data = spark.read().option("header", "true").option("inferSchema", "true").csv("data.csv");

复制代码

String[] featureCols = data.columns();
featureCols = Arrays.copyOfRange(featureCols, 0, featureCols.length - 1);
VectorAssembler assembler = new VectorAssembler().setInputCols(featureCols).setOutputCol("features");
DataFrame inputData = assembler.transform(data).select("features", "output");
inputData.show(false);

复制代码

double[] weights = {0.7, 0.3};
DataFrame[] splitData = inputData.randomSplit(weights);
DataFrame train = splitData[0];
DataFrame test = splitData[1];

复制代码

GBTRegressor gbt = new GBTRegressor()
.setLabelCol("output")
.setFeaturesCol("features")
.setMaxIter(100)
.setStepSize(0.1)
.setMaxDepth(6)
.setLossType("squared")
.setFeatureSubsetStrategy("auto");

复制代码

Pipeline pipeline = new Pipeline().setStages(new PipelineStage[]{gbt});

复制代码

GBTRegressionModel model = (GBTRegressionModel) pipeline.fit(train).stages()[0];

复制代码

DataFrame predictions = model.transform(test);
predictions.show(false);
RegressionEvaluator evaluator = new RegressionEvaluator()
.setMetricName("rmse")
.setLabelCol("output")
.setPredictionCol("prediction");
double rmse = evaluator.evaluate(predictions);
System.out.println("Root Mean Squared Error (RMSE) on test data = " + rmse);

复制代码

import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.evaluation.RegressionEvaluator;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.regression.{GBTRegressionModel, GBTRegressor};
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SparkSession;import java.util.Arrays;public class XGBoostExample { public static void main(String[] args) { SparkSession spark = SparkSession.builder().appName("XGBoost").master("local
[*]").getOrCreate(); // 加载数据 DataFrame data = spark.read().option("header", "true").option("inferSchema", "true").csv("data.csv"); data.printSchema(); data.show(false); // 准备特征向量 String[] featureCols = data.columns(); featureCols = Arrays.copyOfRange(featureCols, 0, featureCols.length - 1); VectorAssembler assembler = new VectorAssembler().setInputCols(featureCols).setOutputCol("features"); DataFrame inputData = assembler.transform(data).select("features", "output"); inputData.show(false); // 划分训练集和测试集 double[] weights = {0.7, 0.3}; DataFrame[] splitData = inputData.randomSplit(weights); DataFrame train = splitData[0]; DataFrame test = splitData[1]; // 定义XGBoost模型 GBTRegressor gbt = new GBTRegressor() .setLabelCol("output") .setFeaturesCol("features") .setMaxIter(100) .setStepSize(0.1) .setMaxDepth(6) .setLossType("squared") .setFeatureSubsetStrategy("auto"); // 构建管道 Pipeline pipeline = new Pipeline().setStages(new PipelineStage[]{gbt}); // 训练模型 GBTRegressionModel model = (GBTRegressionModel) pipeline.fit(train).stages()[0]; // 进行预测并评估模型 DataFrame predictions = model.transform(test); predictions.show(false); RegressionEvaluator evaluator = new RegressionEvaluator() .setMetricName("rmse") .setLabelCol("output") .setPredictionCol("prediction"); double rmse = evaluator.evaluate(predictions); System.out.println("Root Mean Squared Error (RMSE) on test data = " + rmse); spark.stop(); }}

复制代码