大数据-基于不同算法对数据进行猜测

慢吞云雾缓吐愁 · 4 天前

目录
1.数据清洗
1.1缺失值处理
1.2非常值检测
1.3数据尺度化
2.数据预备
2.1特性工程
2.2数据集分别（训练集与测试集）
3.猜测算法应用
3.1逻辑回归
3.1.1算法原理
3.1.2实现过程
3.1.3输出结果
3.2支持向量机（SVM）
3.2.1算法原理
3.2.2实现过程
3.2.3输出结果
3.3K最近邻（KNN）
3.3.1算法原理
3.3.2实现过程
3.3.3输出结果
3.4决策树
3.4.1算法原理
3.4.2实现过程
3.4.3输出结果
3.5随机丛林
3.5.1算法原理
3.5.2实现过程
3.5.3输出结果
3.6淳厚贝叶斯
3.6.1算法原理
3.6.2实现过程
3.6.3输出结果
4.影响模型准确度的参数
4.1超参数
4.1.1超参数界说与重要性
4.1.2超参数调整方法（网格搜索、随机搜索等）
4.2数据相干参数
4.2.1特性选择与影响
4.2.2数据量与数据质量的影响
4.3其他影响因素
4.3.1模型复杂度
4.3.2训练方法与战略
5.模型评估
5.1评估指标（准确率、召回率等）
5.2模型对比分析

1.数据清洗

1.1缺失值处理

数据清洗是数据分析过程中至关重要的一步，目标是进步数据质量，为后续的分析和建模打下精良的基础
现有一个数据集——“train.csv”进行演示，对其进行幸存者的猜测，数据结构如下：

PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
1	0	3	Braund, Mr. Owen Harris	male	22	1	0	A/5 21171	7.25		S
2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Thayer)	female	38	1	0	PC 17599	71.2833	C85	C
3	1	3	Heikkinen, Miss. Laina	female	26	0	0	STON/O2. 3101282	7.925		S
4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35	1	0	113803	53.1	C123	S
5	0	3	Allen, Mr. William Henry	male	35	0	0	373450	8.05		S

在数据集中，缺失值会影响模型的训练效果。因此，我们必要识别并处理缺失值。可以利用均值、中位数或众数添补缺失值，大概直接删除含有缺失值的样本。以下是处理缺失值的示例代码：

import pandas as pd
# 读取数据
data = pd.read_csv('train.csv')
# 查看缺失值情况
print(data.isnull().sum())
# 填充缺失的年龄值
data['Age'].fillna(data['Age'].median(), inplace=True)
# 填充缺失的舱位
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)
# 查看清洗后的数据
print(data.isnull().sum())

复制代码

输出：

PassengerId 0
Survived 0
Pclass 0
Name 0
Sex 0
Age 177
SibSp 0
Parch 0
Ticket 0
Fare 0
Cabin 687
Embarked 2
dtype: int64
PassengerId 0
Survived 0
Pclass 0
Name 0
Sex 0
Age 0
SibSp 0
Parch 0
Ticket 0
Fare 0
Cabin 687
Embarked 0
dtype: int64

复制代码

1.2非常值检测

非常值大概会影响模型的准确性，因此必要识别并处理。可以利用箱形图（Boxplot）等方法检测非常值，并决定是否删除或调整它们。

import seaborn as sns
import matplotlib.pyplot as plt
# 绘制箱形图
sns.boxplot(x=data['Fare'])
plt.show()

复制代码

输出：

1.3数据尺度化

尺度化是将数据转换为相同的尺度，以便在模型训练时各个特性的权重相对平衡。常用的尺度化方法包罗Z-score尺度化和Min-Max尺度化。

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data[['Age', 'Fare']] = scaler.fit_transform(data[['Age', 'Fare']])

复制代码

2.数据预备

在数据预备阶段，我们必要进行特性工程和数据集分别。
2.1特性工程

特性工程是指从原始数据中提取有用的信息，以进步模型的性能。在此步骤中，我们将分类变量转换为数值变量，并选择对模型故意义的特性。

# 特征选择
features = data[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']]
features['Sex'] = features['Sex'].map({'male': 0, 'female': 1})

复制代码

2.2数据集分别（训练集与测试集）

将数据集分别为训练集和测试集是模型训练的重要步骤。通常，训练集占总数据的70%到80%，测试集占20%到30%。这可以通过train_test_split函数实现。

from sklearn.model_selection import train_test_split
# 目标变量
target = data['Survived']
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

复制代码

3.猜测算法应用

3.1逻辑回归

3.1.1算法原理

逻辑回归是一种用于二分类问题的统计方法，假设特性与输出之间存在线性关系，并通过逻辑函数（sigmoid函数）将结果映射到0到1之间。
3.1.2实现过程

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
# 逻辑回归模型
model_lr = LogisticRegression()
model_lr.fit(X_train, y_train)
# 预测
y_pred_lr = model_lr.predict(X_test)
# 结果分析
accuracy_lr = accuracy_score(y_test, y_pred_lr)
print(f'逻辑回归准确率: {accuracy_lr:.2f}')

复制代码

3.1.3输出结果

逻辑回归通常在简单线性可分的数据集上表现精良

逻辑回归准确率: 0.81

复制代码

3.2支持向量机（SVM）

3.2.1算法原理

支持向量机通过探求最佳超平面，将不同类别的数据点分开。其主要目标是最大化分类间隔，从而进步模型的泛化能力。
3.2.2实现过程

from sklearn.svm import SVC
# 支持向量机模型
model_svm = SVC()
model_svm.fit(X_train, y_train)
# 预测
y_pred_svm = model_svm.predict(X_test)
# 结果分析
accuracy_svm = accuracy_score(y_test, y_pred_svm)
print(f'SVM准确率: {accuracy_svm:.2f}')

复制代码

3.2.3输出结果

SVM在处理高维数据时表现优异，但对大数据集的计算开销较大。

SVM准确率: 0.82

复制代码

3.3K最近邻（KNN）

3.3.1算法原理

KNN是一种基于实例的学习方法，通过丈量新样本与训练样本之间的距离（如欧氏距离）进行分类。
3.3.2实现过程

from sklearn.neighbors import KNeighborsClassifier
# KNN模型
model_knn = KNeighborsClassifier(n_neighbors=5)
model_knn.fit(X_train, y_train)
# 预测
y_pred_knn = model_knn.predict(X_test)
# 结果分析
accuracy_knn = accuracy_score(y_test, y_pred_knn)
print(f'KNN准确率: {accuracy_knn:.2f}')

复制代码

3.3.3输出结果

KNN对于数据量较小且特性较少的情况效果精良，但计算复杂度随数据量增长而敏捷上升。

KNN准确率: 0.80

复制代码

3.4决策树

3.4.1算法原理

决策树通过递归地分割数据集，以构建树形结构进行决策。每个节点代表一个特性，每条边代表一个特性的取值。
3.4.2实现过程

from sklearn.tree import DecisionTreeClassifier
# 决策树模型
model_dt = DecisionTreeClassifier()
model_dt.fit(X_train, y_train)
# 预测
y_pred_dt = model_dt.predict(X_test)
# 结果分析
accuracy_dt = accuracy_score(y_test, y_pred_dt)
print(f'决策树准确率: {accuracy_dt:.2f}')

复制代码

3.4.3输出结果

决策树易于明确和解释，但容易出现过拟合征象。

决策树准确率: 0.76

复制代码

3.5随机丛林

3.5.1算法原理

随机丛林是基于决策树的集成学习方法，通过构建多个决策树并进行投票，以进步模型的准确性和鲁棒性。
3.5.2实现过程

from sklearn.ensemble import RandomForestClassifier
# 随机森林模型
model_rf = RandomForestClassifier(n_estimators=100)
model_rf.fit(X_train, y_train)
# 预测
y_pred_rf = model_rf.predict(X_test)
# 结果分析
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f'随机森林准确率: {accuracy_rf:.2f}')

复制代码

3.5.3输出结果

随机丛林能有用减少过拟合征象，并在多数情况下提供更高的准确率。

随机森林准确率: 0.80

复制代码

3.6淳厚贝叶斯

3.6.1算法原理

淳厚贝叶斯基于贝叶斯定理，假设特性之间相互独立，得当于文本分类等高维数据的场景。
3.6.2实现过程

from sklearn.naive_bayes import GaussianNB
# 朴素贝叶斯模型
model_nb = GaussianNB()
model_nb.fit(X_train, y_train)
# 预测
y_pred_nb = model_nb.predict(X_test)
# 结果分析
accuracy_nb = accuracy_score(y_test, y_pred_nb)
print(f'朴素贝叶斯准确率: {accuracy_nb:.2f}')

复制代码

3.6.3输出结果

淳厚贝叶斯在假设建立的情况下表现精良，尤其实用于大规模数据集。

朴素贝叶斯准确率: 0.77

复制代码

4.影响模型准确度的参数

4.1超参数

在模型训练中，影响模型准确度的参数主要包罗超参数、数据相干参数和其他因素。
4.1.1超参数界说与重要性

超参数是模型在训练之前必要设置的参数，通常对模型性能有明显影响。选择符合的超参数可以有用提拔模型的准确率。
4.1.2超参数调整方法（网格搜索、随机搜索等）

常用的超参数调整方法包罗网格搜索和随机搜索。这些方法通过交叉验证选择最佳参数组合。
以SVC示例：

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
# 原始支持向量机模型
model_svm = SVC(kernel='linear')
model_svm.fit(X_train, y_train)
# 预测原始模型的准确率
y_pred_svm = model_svm.predict(X_test)
original_accuracy = accuracy_score(y_test, y_pred_svm)
print(f'原始模型准确率: {original_accuracy:.2f}')
# 超参数调整示例
param_grid = {'C': [0.1, 1, 10], 'gamma': ['scale', 'auto']}
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train, y_train)
# 输出最佳参数及其对应的准确率
best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)
best_accuracy = accuracy_score(y_test, y_pred_best)
print(f'最佳参数: {grid_search.best_params_}')
print(f'最佳参数下的准确率: {best_accuracy:.2f}')

复制代码

原始模型准确率: 0.78
最佳参数: {'C': 10, 'gamma': 'scale'}
最佳参数下的准确率: 0.81

复制代码

4.2数据相干参数

4.2.1特性选择与影响

选择符合的特性对模型的性能至关重要。特性选择可以通过相干性分析、递归特性消除等方法进行。
4.2.2数据量与数据质量的影响

数据量的增长通常能进步模型的泛化能力，而数据质量直接关系到模型的准确性。确保数据的准确性和同等性至关重要。
4.3其他影响因素

4.3.1模型复杂度

模型复杂度指模型的灵活性，复杂度过高容易导致过拟合，而复杂度过低大概导致欠拟合。
4.3.2训练方法与战略

选择符合的训练方法和战略，如交叉验证和早停法，能够进步模型的稳固性和准确性。
5.模型评估

5.1评估指标（准确率、召回率等）

模型评估是验证模型性能的重要步骤，评估指标包罗准确率、召回率、F1-score等。
5.2模型对比分析

from sklearn.metrics import classification_report
print("逻辑回归报告:")
print(classification_report(y_test, y_pred_lr))
print("SVM报告:")
print(classification_report(y_test, y_pred_svm))
print("KNN报告:")
print(classification_report(y_test, y_pred_knn))
print("决策树报告:")
print(classification_report(y_test, y_pred_dt))
print("随机森林报告:")
print(classification_report(y_test, y_pred_rf))
print("朴素贝叶斯报告:")
print(classification_report(y_test, y_pred_nb))

复制代码

输出结果：

逻辑回归报告:
precision recall f1-score support
0 0.81 0.88 0.84 105
1 0.80 0.72 0.76 74
accuracy 0.81 179
macro avg 0.81 0.80 0.80 179
weighted avg 0.81 0.81 0.81 179
SVM报告:
precision recall f1-score support
0 0.80 0.84 0.82 105
1 0.75 0.70 0.73 74
accuracy 0.78 179
macro avg 0.78 0.77 0.77 179
weighted avg 0.78 0.78 0.78 179
KNN报告:
precision recall f1-score support
0 0.82 0.85 0.84 105
1 0.77 0.74 0.76 74
accuracy 0.80 179
macro avg 0.80 0.80 0.80 179
weighted avg 0.80 0.80 0.80 179
决策树报告:
precision recall f1-score support
0 0.80 0.78 0.79 105
1 0.70 0.73 0.72 74
accuracy 0.76 179
macro avg 0.75 0.76 0.75 179
weighted avg 0.76 0.76 0.76 179
随机森林报告:
precision recall f1-score support
0 0.82 0.85 0.83 105
1 0.77 0.73 0.75 74
accuracy 0.80 179
macro avg 0.79 0.79 0.79 179
weighted avg 0.80 0.80 0.80 179
朴素贝叶斯报告:
precision recall f1-score support
0 0.80 0.81 0.81 105
1 0.73 0.72 0.72 74
accuracy 0.77 179
macro avg 0.76 0.76 0.76 179
weighted avg 0.77 0.77 0.77 179

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

大数据-基于不同算法对数据进行猜测

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云