ToB企服应用市场:ToB评测及商务社交产业平台

标题: 机器学习_11 线性回归知识点总结 [打印本页]

作者: 万万哇    时间: 2025-2-18 11:52
标题: 机器学习_11 线性回归知识点总结
线性回归是机器学习中最基础、最经典的算法之一,广泛应用于预测连续数值型目标变量的场景。无论是数据分析、金融预测还是科学研究,线性回归都饰演偏紧张的脚色。本日,我们就来深入探讨一下线性回归的原理、应用和实现。
一、线性回归的基本概念

1.1 定义与原理

线性回归是一种用于建立自变量(特征)与因变量(目标)之间线性关系的统计分析方法。它的目标是通过最小化预测值与真实值之间的偏差,找到最佳的线性模子。简单线性回归模子可以用公式表示为:y = bo + b1 * x,其中y是因变量,x是自变量,bo是截距,b1是回归系数。而多元线性回归模子则扩展为:y = bo + b1 * x1 + b2 * x2 + ... + bp * xp,可以同时思量多个自变量对因变量的影响。
1.2 基本假设

线性回归的有效性基于以下关键假设:

这些假设确保了线性回归模子的公道性和可靠性。如果数据不满足这些假设,可能必要进行数据转换或选择其他模子。
二、线性回归的数学形貌与实现

2.1 简单线性回归的数学形貌

简单线性回归模子的核心是找到合适的回归系数b0和b1,使得模子的预测偏差最小化。通常采用最小二乘法(OLS)来估计这些系数,纵然得观测值与模子预测值之间的残差平方和最小。
2.2 最小二乘法(OLS)

最小二乘法的目标是通过最小化残差平方和来确定最佳拟合线。其公式为:min Σ(yi - (b0 + b1 * xi))^2,其中yi是观测值,xi是自变量,b0和b1是必要估计的参数。最小二乘法的解可以通过以下公式得到:b1 = Σ((xi - x̄)(yi - ȳ)) / Σ((xi - x̄)^2) 和 b0 = ȳ - b1 * x̄,其中x̄和ȳ分别是自变量和因变量的均值。
2.3 残差的作用

残差是指每个观测值的真实值与模子预测值之间的差异。在线性回归中,残差的最小化是模子优化的核心目标。通过最小化残差,模子可以或许更好地拟合数据,提高预测的准确性。
2.4 拟合优度的权衡


三、线性回归的实现与案例

3.1 Python实现

以下是使用Python和Scikit-Learn库实现简单线性回归的代码示例:
  1. import numpy as np
  2. from sklearn.linear_model import LinearRegression
  3. # 创建示例数据
  4. X = np.array([1, 2, 3, 4, 5]).reshape(-1, 1)  # 自变量
  5. y = np.array([2, 4, 5, 4, 5])  # 因变量
  6. # 创建线性回归模型
  7. model = LinearRegression()
  8. # 拟合模型
  9. model.fit(X, y)
  10. # 打印回归系数和截距
  11. print("回归系数 (b1):", model.coef_)
  12. print("截距 (b0):", model.intercept_)
  13. # 预测新数据点
  14. new_x = np.array([6]).reshape(-1, 1)
  15. predicted_y = model.predict(new_x)
  16. print("新数据点的预测值:", predicted_y)
复制代码
3.2 案例分析

假设我们有一组数据,记载了广告支出与产品销售额之间的关系。我们希望通过线性回归模子预测广告支出对销售额的影响。

四、线性回归的常见问题与解决方法

4.1 多重共线性

当自变量之间存在高度相干性时,会导致回归系数估计不稳定,模子表明本领降落。解决方法包括:

4.2 下溢和上溢

在数值盘算中,下溢指盘算结果过小,超出盘算机表示范围;上溢指盘算结果过大,超出盘算机表示范围。解决方法包括:

4.3 岭回归与Lasso回归


五、线性回归模子的评估指标

5.1 常用评估指标


通过这些评估指标,我们可以全面地评价线性回归模子的性能,选择最恰当问题的模子。






欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4