机器学习-线性回顾

打印 上一主题 下一主题

主题 978|帖子 978|积分 2934

线性回归

1. 简介

  1. """
  2. 简介:
  3.         定义:
  4.                 利用回归方程对一个或多个自变量(特征值)和因变量(目标值)之间关系 进行建模的一种分析方式
  5.         公式:
  6.                 见下图
  7.         分类:
  8.                 一元线性回归:
  9.                         目标值与一个因变量有关系
  10.                 多远线性回归:
  11.                         目标值与多个因变量有关系
  12. """
复制代码
线性回归公式. 见下图

2. 线性回归问题求解

  1. """
  2. 线性回归API:
  3.         from sklearn.linear_model import LinearRegression
  4. 损失函数:
  5.         误差概念:
  6.                 用预测值y-真实值y = 误差
  7.         衡量每个样本预测值与真实值效果的函数
  8.                 代价函数, 成本函数, 目标函数
  9.         种类:
  10.                 均方误差 MSE
  11.                 平均绝对误差 MAE
  12.                 均方根误差 RMSE
  13. 正规方程法:
  14.         线性回归最小而成损失函数
  15.                 J(w)= ||Xw−y||₂² 取值最小
  16. """
  17. # 1.导入依赖包
  18. # from sklearn.datasets import load_boston # 数据集已废弃
  19. from sklearn.preprocessing import StandardScaler  # 特征处理
  20. from sklearn.model_selection import train_test_split  # 数据集划分
  21. from sklearn.linear_model import LinearRegression  # 正规方程的回归模型
  22. from sklearn.linear_model import SGDRegressor  # 梯度下降的回归模型
  23. from sklearn.metrics import mean_squared_error  # 均方误差评估
  24. from sklearn.linear_model import Ridge, RidgeCV
  25. import matplotlib.pyplot as plt
  26. import pandas as pd
  27. import numpy as np
  28. import warnings
  29. warnings.filterwarnings('ignore')
  30. # 正规方程法
  31. def linearRegr():
  32.     """
  33.     正规方程法
  34.     :return:
  35.     """
  36.     # 2.数据预处理
  37.     # 2.1 获取数据
  38.     data_url = "http://lib.stat.cmu.edu/datasets/boston"
  39.     raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
  40.     data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
  41.     target = raw_df.values[1::2, 2]
  42.     # 2.2 数据集划分
  43.     x_train, x_test, y_train, y_test = train_test_split(data, target, random_state=22)
  44.     # 2.3 特征工程-标准化
  45.     transfer = StandardScaler()
  46.     x_train = transfer.fit_transform(x_train)
  47.     x_test = transfer.transform(x_test)
  48.     # 3.模型训练,机器学习-线性回归
  49.     # 3.1 实例化模型(正规方程)
  50.     estimator = LinearRegression()
  51.     # 3.2 模型训练
  52.     estimator.fit(x_train, y_train)
  53.     # 4.模型预测
  54.     y_predict = estimator.predict(x_test)
  55.     print("预测值为:", y_predict)
  56.     print("模型的权重系数为:", estimator.coef_)
  57.     # 5.模型评估,均方误差
  58.     error = mean_squared_error(y_test, y_predict)
  59.     print("误差为:", error)
复制代码
  1. """
  2. 梯度下降法:
  3.         梯度:
  4.                 单变量函数中:
  5.                         梯度就是某一点的切线的斜率
  6.                         梯度的方向为函数增长最快的方向
  7.                 多变量函数中:
  8.                         梯度就是某一个点的偏导数
  9.                         有方向: 偏导数分量的向量方向
  10.         沿着梯度下降的方向求解极小值
  11.         公式:
  12.                 见下图
  13.                 α: 学习率(步长)不能太大,也不能太小. 机器学习中:0.001~0.01
  14.                 梯度是上升最快的方向, 我们需要是下降最快的方向, 所以需要加负号
  15.        
  16.         梯度下降优化过程:
  17.                 1. 给定初始位置 步长(学习率)
  18.                 2. 计算该点当前的梯度的负方向
  19.                 3. 向该负方向移动步长
  20.                         步长决定了在梯度下降迭代过程中, 每一步沿梯度负方向前进的长度
  21.                         学习率太小,下降的速度会慢
  22.                         学习率太大, 容易造成错过最低点, 产生下降过程中的震荡,甚至梯度爆炸
  23.                 4. 重复 2-3 步直至收敛
  24.                         两次差距小于指定的阈值
  25.                         达到指定的迭代次数
  26.         梯度下降法分类:
  27.                 全体度下降算法 FGD
  28.                         每次迭代时, 使用全部样本的梯度值
  29.                                 特点: 训练速度较慢
  30.                 随机梯度下降算法 SGD
  31.                         每次迭代时, 随机选择并使用一个样本梯度值
  32.                                 特点: 简单,高效,不稳定
  33.                 小批量梯度下降算法 mini-batch
  34.                         每次迭代时, 随机选择并使用小批量的样本梯度值
  35.                                 特点: 表现也正好居于SG 和FG 二者之间
  36.                 随机平均梯度下降算法 SAG
  37.                         每次迭代时, 随机选择一个样本的梯度值和以往样本的梯度值的均值
  38.                                 特点: 训练初期表现不佳,优化速度较慢       
  39. """
  40. from sklearn.preprocessing import StandardScaler  # 特征处理
  41. from sklearn.model_selection import train_test_split  # 数据集划分
  42. from sklearn.linear_model import LinearRegression  # 正规方程的回归模型
  43. from sklearn.linear_model import SGDRegressor  # 梯度下降的回归模型
  44. from sklearn.metrics import mean_squared_error  # 均方误差评估
  45. from sklearn.linear_model import Ridge, RidgeCV
  46. import matplotlib.pyplot as plt
  47. import pandas as pd
  48. import numpy as np
  49. # 梯度下降法
  50. def SGDRegr():
  51.     """
  52.     梯度下降法
  53.     :return:
  54.     """
  55.     # 2.数据预处理
  56.     # 2.1 获取数据
  57.     data_url = "http://lib.stat.cmu.edu/datasets/boston"
  58.     raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
  59.     data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
  60.     target = raw_df.values[1::2, 2]
  61.     # 2.2 数据集划分
  62.     x_train, x_test, y_train, y_test = train_test_split(data, target, random_state=22)
  63.     # 2.3 特征工程-标准化
  64.     transfer = StandardScaler()
  65.     x_train = transfer.fit_transform(x_train)
  66.     x_test = transfer.transform(x_test)
  67.     # 3.模型训练,机器学习-线性回归
  68.     # 3.1 实例化模型(梯度下降法)
  69.     estimator = SGDRegressor()
  70.     # estimator = SGDRegressor(max_iter=1000, learning_rate="constant", eta0=0.001)
  71.     # 3.2 模型训练
  72.     estimator.fit(x_train, y_train)
  73.     # 4.模型预测
  74.     y_predict = estimator.predict(x_test)
  75.     print("预测值为:", y_predict)
  76.     print("模型的权重系数为:", estimator.coef_)
  77.     print("模型的偏置为:", estimator.intercept_)
  78.     # 5.模型评估, 均方误差
  79.     error = mean_squared_error(y_test, y_predict)
  80.     print("误差为:", error)
复制代码
梯度下降法, 公式见下图

3. 欠拟合与过拟合

  1. """
  2. 欠拟合与过拟合
  3.         欠拟合:
  4.                 模型在训练集上表现不好,在测试集上也表现不好。模型过于简单
  5.                 出现原因
  6.                         学习到数据的特征过少
  7.                 解决方法
  8.                         添加其他特征
  9.                         添加多项式特征项
  10.         过拟合:
  11.                 模型在训练集上表现好,在测试集上表现不好。模型过于复杂
  12.                 出现原因
  13.                         原始特征过多,存在一些嘈杂特征, 模型过于复杂是因为模型尝试去兼顾各个测试数据点
  14.                 解决方法
  15.                         重新清洗数据
  16.                         增大数据的训练量
  17.                         正则化
  18.                         减少特征维度,防止维灾难
  19. """
  20. def underFitting():
  21.     """
  22.     欠拟合
  23.     :return:
  24.     """
  25.     # 2.准备数据x y(增加上噪声)
  26.     np.random.seed(666)
  27.     x = np.random.uniform(-3, 3, size=100)
  28.     y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
  29.     # 3 训练模型
  30.     # 3.1 实例化线性回归模型
  31.     estimator = LinearRegression()
  32.     # 3.2 模型训练
  33.     X = x.reshape(-1, 1)
  34.     estimator.fit(X, y)
  35.     # 4 模型预测
  36.     y_predict = estimator.predict(X)
  37.     # 5 模型评估,计算均方误差
  38.     # 5.1 模型评估MSE
  39.     myret = mean_squared_error(y, y_predict)
  40.     print('myret-->', myret)
  41.     # 5.2 展示效果
  42.     plt.scatter(x, y)
  43.     plt.plot(x, y_predict, color='r')
  44.     plt.show()
  45. def fitting():
  46.     """
  47.     拟合
  48.     :return:
  49.     """
  50.     # 2.准备数据x y(增加上噪声)
  51.     np.random.seed(666)
  52.     x = np.random.uniform(-3, 3, size=100)
  53.     y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
  54.     # 3.模型训练
  55.     # 3.1 实例化线性回归模型
  56.     estimator = LinearRegression()
  57.     # 3.2 模型训练
  58.     X = x.reshape(-1, 1)
  59.     # print(‘X.shape-->’, X.shape)
  60.     X2 = np.hstack([X, X ** 2])  # 数据增加二次项
  61.     estimator.fit(X2, y)
  62.     # 4.模型预测
  63.     y_predict = estimator.predict(X2)
  64.     # 5.模型评估,计算均方误差
  65.     myret = mean_squared_error(y, y_predict)
  66.     print('myret-->', myret)
  67.     # 6 展示效果
  68.     plt.scatter(x, y)
  69.     # 画图plot折线图时 需要对x进行排序, 取x排序后对应的y值
  70.     plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
  71.     plt.show()
  72. def overFitting():
  73.     """
  74.     过拟合
  75.     :return:
  76.     """
  77.     # 2.准备数据x y(增加上噪声)
  78.     np.random.seed(666)
  79.     x = np.random.uniform(-3, 3, size=100)
  80.     y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
  81.     # 3 训练模型
  82.     # 3.1 实例化线性回归模型
  83.     estimator = LinearRegression()
  84.     # 3.2 模型训练
  85.     X = x.reshape(-1, 1)
  86.     # print(‘X.shape-->’, X.shape)
  87.     X3 = np.hstack([X, X ** 2, X ** 3, X ** 4, X ** 5, X ** 6, X ** 7, X ** 8, X ** 9, X ** 10])  # 数据增加高次项
  88.     estimator.fit(X3, y)
  89.     # 4.模型预测
  90.     y_predict = estimator.predict(X3)
  91.     # 5.模型评估,计算均方误差
  92.     # 5.1 模型评估MSE
  93.     myret = mean_squared_error(y, y_predict)
  94.     print('myret-->', myret)
  95.     # 5.2 展示效果
  96.     plt.scatter(x, y)
  97.     # 画图时输入的x数据: 要求是从小到大
  98.     plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
  99.     plt.show()
复制代码
  1. """
  2. 正则化:
  3.                 在模型训练时,数据中有些特征影响模型复杂度、或者某个特征的异常值较多,所以要尽量减少这个特征的影响(甚至删除某个特征的影响)
  4.                 L1正则化
  5.                         α 叫做惩罚系数,该值越大则权重调整的幅度就越大,即:表示对特征权重惩罚力度就越大
  6.                         L1 正则化会使得权重趋向于 0,甚至等于 0,使得某些特征失效,达到特征筛选的目的
  7.                         from sklearn.linear_model import Lasso
  8.                 L2正则化
  9.                         α 叫做惩罚系数,该值越大则权重调整的幅度就越大,即:表示对特征权重惩罚力度就越大
  10.                         L2 正则化会使得权重趋向于 0,一般不等于 0
  11.                         from sklearn.linear_model import Ridge
  12. """
  13. # 1.导入依赖包
  14. from sklearn.linear_model import Lasso
  15. from sklearn.preprocessing import StandardScaler  # 特征处理
  16. from sklearn.model_selection import train_test_split  # 数据集划分
  17. from sklearn.linear_model import LinearRegression  # 正规方程的回归模型
  18. from sklearn.linear_model import SGDRegressor  # 梯度下降的回归模型
  19. from sklearn.metrics import mean_squared_error  # 均方误差评估
  20. from sklearn.linear_model import Ridge, RidgeCV
  21. import matplotlib.pyplot as plt
  22. import pandas as pd
  23. import numpy as np
  24. def L1Regular():
  25.     """
  26.     L1 正则化
  27.     :return:
  28.     """
  29.     # 2.准备数据x y(增加上噪声)
  30.     np.random.seed(666)
  31.     x = np.random.uniform(-3, 3, size=100)
  32.     y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
  33.     # 3 训练模型
  34.     # 3.1 实例化L1正则化模型 做实验:alpha惩罚力度越来越大,k值越来越小,返回会欠拟合
  35.     estimator = Lasso(alpha=0.1)
  36.     # 3.2 模型训练
  37.     X = x.reshape(-1, 1)
  38.     X3 = np.hstack([X, X ** 2, X ** 3, X ** 4, X ** 5, X ** 6, X ** 7, X ** 8, X ** 9, X ** 10])  # 数据增加二次项
  39.     estimator.fit(X3, y)
  40.     print('estimator.coef_', estimator.coef_)
  41.     # 4.模型预测
  42.     y_predict = estimator.predict(X3)
  43.     # 5.模型评估,计算均方误差
  44.     # 5.1 模型评估MSE
  45.     myret = mean_squared_error(y, y_predict)
  46.     print('myret-->', myret)
  47.     # 5.2 展示效果
  48.     plt.scatter(x, y)
  49.     # 画图时输入的x数据: 要求是从小到大
  50.     plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
  51.     plt.show()
  52. # 1.导入依赖包
  53. from sklearn.linear_model import Ridge
  54. def L2Regular():
  55.     """
  56.     L2 正则化
  57.     :return:
  58.     """
  59.     # 2.准备数据x y(增加上噪声)
  60.     np.random.seed(666)
  61.     x = np.random.uniform(-3, 3, size=100)
  62.     y = 0.5 * x ** 2 + x + 2 + np.random.normal(0, 1, size=100)
  63.     # 3.训练模型
  64.     # 3.1 实例化L2正则化模型
  65.     estimator = Ridge(alpha=0.1)
  66.     # 3.2 模型训练
  67.     X = x.reshape(-1, 1)
  68.     X3 = np.hstack([X, X ** 2, X ** 3, X ** 4, X ** 5, X ** 6, X ** 7, X ** 8, X ** 9, X ** 10])  # 数据增加二次项
  69.     estimator.fit(X3, y)
  70.     print('estimator.coef_', estimator.coef_)
  71.     # 4.模型预测
  72.     y_predict = estimator.predict(X3)
  73.     # 5.模型评估,计算均方误差
  74.     # 5.1 模型评估,MSE
  75.     myret = mean_squared_error(y, y_predict)
  76.     print('myret-->', myret)
  77.     # 5.2 展示效果
  78.     plt.scatter(x, y)
  79.     # 画图时输入的x数据: 要求是从小到大
  80.     plt.plot(np.sort(x), y_predict[np.argsort(x)], color='r')
  81.     plt.show()
复制代码
L1正则化, 公式为

L2正则化, 公式为


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

风雨同行

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表