灌篮少年 发表于 2024-8-10 09:48:43

机器学习入门篇之监督学习(回归篇)——多元线性回归的原理介绍

在机器学习入门之监督学习(分类篇)-CSDN博客,以及初步接触了机器学习,在这片文章中我们继承沿着思维导图学习监督学习的剩下部分,回归。https://i-blog.csdnimg.cn/direct/26df654f73bb4c67950650c5cfb627df.png
在监督学习中,回归是一种推测型建模技术,它涉及推测一个连续的相应变量(目的变量)基于一个或多个推测变量(特性)。与分类不同,分类推测的是离散标签,回归则是输出连续数值。这使得回归实用于许多现实世界的问题,如推测房价、气温、销售额或任何其他连续量。
常见的回归范例


[*]线性回归(Linear Regression):假设目的变量和特性之间存在线性关系。简朴线性回归用于单个特性和目的之间的关系,多元线性回归用于多个特性。
[*]多项式回归(Polynomial Regression):当数据点与变量之间的关系更适合用多项式体现时使用。
[*]岭回归(Ridge Regression)和套索回归(Lasso Regression):这些是线性回归的变体,包含正则化项。岭回归添加了L2正则化项,而套索回归添加了L1正则化项,以避免过拟归并改进模型。
[*]逻辑回归(Logistic Regression):固然名为回归,但它是一种分类方法,用于推测二元变量的概率(如0或1、是或否)。
[*]弹性网回归(Elastic Net Regression):联合了岭回归和套索回归的特点,添加了两种范例的正则化项
这里我们从多元线性回归入手,多元线性回归是统计学中的一种回归分析方法,用于估计两个或多个自变量(推测变量)和一个因变量(相应变量)之间的关系。这种模型假设相应变量与各自变量之间存在线性关系。
一、多元线性回归的基本原理

多元线性回归模型可以体现为:https://i-blog.csdnimg.cn/direct/c7dd176761c240d7aeb305dad2793f78.pnghttps://i-blog.csdnimg.cn/direct/978bc3515db34bc7a10120f6d8e261ce.png
 二、最小二乘法(Least Squares Method)

最小二乘法(Least Squares Method)是一种数学优化技术,广泛用于数据拟合和参数估计。在统计学中,尤其是在回归分析中,最小二乘法用于找出最佳函数匹配一组数据,以便最小化现实观测点和推测点之间的偏差平方和。
最小二乘法的目的是最小化偏差的平方和。对于线性回归问题,我们有数据点集https://i-blog.csdnimg.cn/direct/779cb796c00643b688fd635f7e91ca4c.png,模型试图找到一条直线(或更高维的超平面),使得全部数据点到这条直线的垂直隔断之和的平方最小。
假设我们的模型是一个线性方程:
https://i-blog.csdnimg.cn/direct/00f0a5563770443ea1f54251a1585686.pnghttps://i-blog.csdnimg.cn/direct/ce8864c463e74d6abd23efd39936c218.png最小二乘法不但用于简朴的线性回归,还可以扩展到多元线性回归、非线性模型和曲线拟合等更复杂的情况。在多元线性回归中,最小二乘法试图找到多个参数,以使得多维空间中的超平面与数据点之间的偏差平方和最小。
三、回归模型的评估

https://i-blog.csdnimg.cn/direct/fe07b7ca415d4537acfcc3e0feccfc66.png
 四、回归实战

from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 加载数据集
data = load_boston()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测测试集结果
predictions = model.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, predictions)
print('Mean Squared Error:', mse)
五、回归与分类的区别 

回归和分类都是监督学习中的常见问题,但它们的目的、输出范例和评估方法有所不同。这两种方法各自实用于不同的数据科学问题和场景。
回归(Regression)

目的:回归旨在推测连续的数值。它的主要使命是估计一个或多个自变量(输入)和一个因变量(输出)之间的关系。
输出范例:回归分析的输出是连续的数值,如代价、温度、长度等。
常见算法:


[*]线性回归
[*]多项式回归
[*]岭回归(Ridge Regression)
[*]套索回归(Lasso Regression)
评估指标:


[*]均方偏差(MSE)
[*]均方根偏差(RMSE)
[*]平均绝对偏差(MAE)
[*]决定系数(R-squared)
分类(Classification)

目的:分类的目的是将实例分到预先定义的类别中。这涉及到将实例数据分配到两个或多个标签(类别)中。
输出范例:分类的输出是类别标签,如是/否(二分类),大概多个类别如狗、猫、鸟(多分类)。
常见算法:


[*]逻辑回归
[*]决议树
[*]随机森林
[*]支持向量机(SVM)
[*]神经网络
评估指标:


[*]准确率(Accuracy)
[*]精确率(Precision)
[*]召回率(Recall)
[*]F1 分数
[*]肴杂矩阵(Confusion Matrix)
[*]ROC 曲线
关键区别


[*] 输出差异:

[*]回归:推测的是连续值。
[*]分类:推测的是离散类别。

[*] 目的函数:

[*]回归:通常使用均方偏差作为丧失函数,目的是最小化现实值和推测值之间的偏差。
[*]分类:常用的丧失函数包罗交叉熵丧失(尤其是二分类和多分类问题中),目的是最大化推测正确的概率。

[*] 评估方法:

[*]回归:评估的重点是推测值和现实值之间的差异。
[*]分类:评估的重点是正确分类的实例比例和其他相关指标(如精确率和召回率)。

应用示例



[*]回归:推测房价、股票代价、温度等。
[*]分类:邮件是否为垃圾邮件、图片中是猫还是狗、信用卡生意业务是否为敲诈。
回归和分类是办理不同范例推测问题的关键技术,选择哪一种取决于问题的具体需求和数据的性子。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 机器学习入门篇之监督学习(回归篇)——多元线性回归的原理介绍