机器学习_11 线性回归知识点总结

万万哇 · 2025-2-18 11:52:38

线性回归是机器学习中最基础、最经典的算法之一，广泛应用于预测连续数值型目标变量的场景。无论是数据分析、金融预测还是科学研究，线性回归都饰演偏紧张的脚色。本日，我们就来深入探讨一下线性回归的原理、应用和实现。
一、线性回归的基本概念

1.1 定义与原理

线性回归是一种用于建立自变量（特征）与因变量（目标）之间线性关系的统计分析方法。它的目标是通过最小化预测值与真实值之间的偏差，找到最佳的线性模子。简单线性回归模子可以用公式表示为：y = bo + b1 * x，其中y是因变量，x是自变量，bo是截距，b1是回归系数。而多元线性回归模子则扩展为：y = bo + b1 * x1 + b2 * x2 + ... + bp * xp，可以同时思量多个自变量对因变量的影响。
1.2 基本假设

线性回归的有效性基于以下关键假设：

线性关系假设：自变量与因变量之间存在线性关系。
独立性假设：每个观测值之间相互独立。
常数方差假设：在自变量的每个取值点上，观测值的偏差方差都是常数，即同方差性。
正态性假设：观测值的偏差服从正态分布。

这些假设确保了线性回归模子的公道性和可靠性。如果数据不满足这些假设，可能必要进行数据转换或选择其他模子。
二、线性回归的数学形貌与实现

2.1 简单线性回归的数学形貌

简单线性回归模子的核心是找到合适的回归系数b0和b1，使得模子的预测偏差最小化。通常采用最小二乘法（OLS）来估计这些系数，纵然得观测值与模子预测值之间的残差平方和最小。
2.2 最小二乘法（OLS）

最小二乘法的目标是通过最小化残差平方和来确定最佳拟合线。其公式为：min Σ(yi - (b0 + b1 * xi))^2，其中yi是观测值，xi是自变量，b0和b1是必要估计的参数。最小二乘法的解可以通过以下公式得到：b1 = Σ((xi - x̄)(yi - ȳ)) / Σ((xi - x̄)^2) 和 b0 = ȳ - b1 * x̄，其中x̄和ȳ分别是自变量和因变量的均值。
2.3 残差的作用

残差是指每个观测值的真实值与模子预测值之间的差异。在线性回归中，残差的最小化是模子优化的核心目标。通过最小化残差，模子可以或许更好地拟合数据，提高预测的准确性。
2.4 拟合优度的权衡

R平方（R-squared）：权衡模子对数据拟合程度的指标，取值范围在0到1之间。R平方值越靠近1，表示模子对数据的表明本领越强。
调整后的R平方（Adjusted R-squared）：对R平方进行修正，思量了自变量的数目。它避免了因增加无关自变量而导致的R平方虚高问题。

三、线性回归的实现与案例

3.1 Python实现

以下是使用Python和Scikit-Learn库实现简单线性回归的代码示例：

import numpy as np
from sklearn.linear_model import LinearRegression
# 创建示例数据
X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1) # 自变量
y = np.array([2, 4, 5, 4, 5]) # 因变量
# 创建线性回归模型
model = LinearRegression()
# 拟合模型
model.fit(X, y)
# 打印回归系数和截距
print("回归系数 (b1):", model.coef_)
print("截距 (b0):", model.intercept_)
# 预测新数据点
new_x = np.array([6]).reshape(-1, 1)
predicted_y = model.predict(new_x)
print("新数据点的预测值:", predicted_y)

复制代码

3.2 案例分析

假设我们有一组数据，记载了广告支出与产品销售额之间的关系。我们希望通过线性回归模子预测广告支出对销售额的影响。

数据准备：网络广告支出（自变量）和产品销售额（因变量）的数据。
模子练习：使用线性回归模子拟合数据，得到回归系数和截距。
模子评估：盘算R平方值，评估模子对数据的拟合程度。
预测应用：根据模子预测不同广告支出下的销售额，为企业决策提供依据。

四、线性回归的常见问题与解决方法

4.1 多重共线性

当自变量之间存在高度相干性时，会导致回归系数估计不稳定，模子表明本领降落。解决方法包括：

相干系数分析：盘算自变量之间的相干系数，开端判断是否存在多重共线性。
方差膨胀因子（VIF）：VIF值越大，表示共线性越严重。通常VIF大于10的自变量必要思量去除或合并。
主身分分析（PCA）：通过PCA将相干自变量合并成新的无关自变量，减少共线性的影响。

4.2 下溢和上溢

在数值盘算中，下溢指盘算结果过小，超出盘算机表示范围；上溢指盘算结果过大，超出盘算机表示范围。解决方法包括：

数值稳定化：使用梯度裁剪、权重正则化等方法，避免数值过小或过大。
特征尺度化：将输入特征缩放到相似的数值范围内，减少数值盘算中的不稳定因素。

4.3 岭回归与Lasso回归

岭回归（Ridge Regression）：通过在目标函数中引入L2正则化项，限制模子系数的大小，缓解多重共线性问题。
Lasso回归（Lasso Regression）：引入L1正则化项，不仅限制系数大小，还能实现特征选择，使部分系数变为零。

五、线性回归模子的评估指标

5.1 常用评估指标

均方偏差（MSE）：权衡模子预测值与现实观测值之间的平均平方偏差。MSE越小，模子拟合越好。
均方根偏差（RMSE）：MSE的平方根，与目标变量单位一致，更直观地反映偏差大小。
平均绝对偏差（MAE）：权衡模子预测值与现实观测值之间的平均绝对偏差，对异常值不敏感。
决定系数（R-squared）：表示模子表明目标变量方差的比例，越靠近1，拟合越好。
调整决定系数（Adjusted R-squared）：思量自变量数目，避免模子因增加无关变量而误判拟合优度。

通过这些评估指标，我们可以全面地评价线性回归模子的性能，选择最恰当问题的模子。

		自动登录	找回密码
密码			立即注册

机器学习_11 线性回归知识点总结

0 个回复

快速回复

楼主热帖

标签云