ToB企服应用市场:ToB评测及商务社交产业平台

标题: 机器学习条记 [打印本页]

作者: 光之使者    时间: 2024-7-28 18:35
标题: 机器学习条记
1. 监视学习(Supervised Learning)

监视学习(Supervised Learning)是机器学习的一种方法,它使用带有标签的数据来训练模子,使模子可以或许从输入数据中预测输出。监视学习的目标是找到一个函数或映射关系(x --> y),使得给定新的输入数据时,模子可以或许准确地预测对应的输出。监视学习广泛应用于各种实际问题中,如分类、回归、语音识别、图像识别等。
监视学习的主要范例


假设我们有一个房价数据集,每个数据点包含房屋的特性(如面积、房间数、位置等)和对应的房价。通过监视学习算法,我们可以训练一个回归模子,根据房屋特性来预测房价。

假设有一个病人检测肿瘤数据集,通过监视学习算法,可以训练一个分类器,根据肿瘤巨细和病人年事来预测肿瘤为良性或恶性。
2. 无监视学习(Unsupervised Learning)

无监视学习(Unsupervised Learning)是机器学习的一种范例,它在没有标签的数据集上举行训练,即数据集中没有明白的输入和输出对。无监视学习的主要目标是从数据中发现隐藏的模式或结构,而不必要人工标注的数据。
无监视学习的主要范例




3. 线性回归模子(Linear Regression Model)

线性回归(Linear Regression)是一种用于预测连续数值的监视学习算法,它通过创建输入特性与输出变量之间的线性关系来预测输出。

输入的训练集(输入特性。输出目标)通过学习算法构造函数 f,再将特性x输入学好的模子,输出预测结果 y-hat,直到结果接近真实目标值y。
4. 损失函数(Loss Function)

在机器学习中,代价函数(也称为损失函数)用于评估模子的预测结果与实际结果之间的差异。在线性回归中,常用的代价函数是均方误差(Mean Squared Error, MSE)。代价函数越小,分析模子的预测结果越接近实际值,因此训练模子的目标是最小化代价函数。

对于线性回归损失函数,要选择参数 w 和 b 的值,以便从函数 f 得到的直线以某种方式很好地拟合数据。

J(w, b)为损失函数
m是训练样本数量
f((x)(i))为第 i 个样本的预测值
y(i)是第 i 个样本的实际值

5. 梯度降落(Gradient Descent)

梯度降落是一种用于优化损失函数的迭代算法,通过渐渐调整模子参数,使损失函数达到最小值。

w,b 是模子参数。
α 是学习率,控制每次更新的步长。
偏导数:



学习率 :α 是梯度降落中一个紧张的超参数。学习率过大可能导致参数更新过快,跳过最优解;学习率过小可能导致收敛速度过慢。通常通过实验和调参来选择合适的学习率。

如果梯度降落接近局部最小值时,导数会主动变小,即使 α 保持在某个固定值。


6. 线性回归梯度降落(Gradient Descent for Linear Regression)

参数更新规则:

线性回归的损失函数(通常是均方误差,MSE)是一个凸函数,这意味着它只有一个全局最小值,而没有多个局部最小值。

不断运行梯度降落举行数据拟合,成本函数越靠近等高线图的中心圈,w,b越接近最优解。

批量梯度降落(Batch Gradient Descent)用于最小化损失函数并找到最佳的模子参数。在批量梯度降落中,每次迭代使用整个训练集来计算梯度和更新参数。

7. 多类特性(Multiple features)

通过多个输入特性举行预测结果输出,通过结合多个特性,模子可以或许捕获更复杂的关系和模式,从而提高预测的准确性。

将参数 w 和 特性 x 举行矢量化,通过向量的内积求得模子函数。

8. 向量化(Vectorization)

向量化是将数据转换为向量形式的过程。
下图对比了向量化前和后的求模子函数的方法:

d 为导数,这里体现 w 的厘革量,通过减去厘革量不断更新 w 的值。

9. 多元线性回归的梯度降落法(Gradient Descent for Multiple Regression)


函数执行梯度降落迭代,更新参数并记载每次迭代的损失。

10. 特性缩放(Feature scaling)

特性缩放是数据预处理的紧张步调,旨在将不同特性的值缩放到一个相似的范围,以提高机器学习模子的性能和训练速度。

当一个特性的值范围大时,对应的参数范围有必要小;反之。

当有不同的功能,具有非常不同的值范围时,它会导致梯度降落运行缓慢;但重新缩放不同的功能,它们的值具有可比的值范围后就可以显著加快梯度降落。


11. 查抄梯度降落是否收敛(Checking Gradient Descent for Convergence)

横轴为梯度降落的迭代次数,纵轴为成本值。
当曲线达到平稳时,梯度降落接近于收敛。
主动收敛测试:设置一个固定值 ε,如果成本值在一次迭代中小于 ε,则梯度降落收敛。

12. 学习率的选择(Choosing the Learning Rate)

如果 α 太小,梯度降落速度太慢;如果太大,梯度降落可能不会收敛。


13. 特性工程(Feature Engineering)

特性工程是指在机器学习和数据分析中,通过对原始数据举行特性提取、转换和选择,以创建可以或许更好地反映问题本质、提升模子性能的特性的过程。特性工程对于模子的终极性能有着紧张的影响,它可以或许帮助模子更好地明白数据,提取有效的信息,从而提高模子的准确性和泛化能力。

14. 多项式回归(Polynomial Regression)

多项式回归是线性回归的一种扩展形式,它通过增长特性的高次项来拟合数据中的非线性关系。与平凡线性回归不同,多项式回归可以更灵活地适应数据的曲线形态,因此在处理非线性数据时特别有效。



15. 逻辑回归(Logistic Regression)

逻辑回归是一种广泛使用的分类算法,主要用于办理二分类问题。尽管名称中带有“回归”,但逻辑回归实际上是一种分类算法,由于它预测的是离散的种别标签。


16. 决策边界(Decision Boundary)

逻辑回归的决策边界是由线性方程 z=0 确定的。

令 w1 = w2 = 1,b = -3,令 z = 0,则

画出 x1 与 x2 的直线图,即为决策边界。

令 w1 = w2 = 1,b = -1,则

画出图像为一个单位圆,这个单位圆即为决策边界。


17. 逻辑回归的代价函数(Cost Function for Logistic Regression)

在逻辑回归中,代价函数(也称为损失函数)用于衡量模子预测与实际结果之间的差距,并指导模子参数的优化。对于逻辑回归,代价函数是基于似然函数的对数体现,即对数似然函数。最大化对数似然函数等价于最小化负对数似然函数,后者通常被用作代价函数。









18. 梯度降落实现(Gradient Descent Implement)



19. 过拟合(Overfitting)与欠拟合(Underfitting)

在机器学习中,过拟合(Overfitting)是指模子在训练数据上体现非常好,但在未见过的测试数据或新数据上体现较差的一种现象。过拟合意味着模子在训练数据中学习到了过多的噪声和细节,而不是学习到了数据的通用特性。如许一来,模子的泛化能力变差,在实际应用中结果不佳。
欠拟合是指模子过于简单,无法捕获数据的内在规律,导致在训练数据和测试数据上的体现都很差。欠拟合通常发生在模子的复杂度太低的情况下,例如使用线性模子来拟合非线性数据。
过拟合是指模子过于复杂,捕获到了训练数据中的噪声和细节,虽然在训练数据上的体现非常好,但在测试数据上的体现很差。过拟合通常发生在模子的复杂度太高的情况下,例如使用高次多项式来拟合数据。


20. 办理过拟合的方法(Addressing Overfitting)







21. 正则化代价函数(Cost Function with Regularization)

正则化是机器学习中防止过拟合的一种技能。它通过在模子的损失函数中增长一个正则化项来限制模子的复杂度,从而提高模子在新数据上的泛化能力。