温锦文欧普厨电及净水器总代理 发表于 2024-9-21 03:25:38

一文彻底搞懂 Fine-tuning - 超参数(Hyperparameter)

最近这一两周看到不少互联网公司都已经开始秋招提前批了。差别以往的是,当前职场环境已不再是那个双向奔赴期间了。求职者在变多,HC 在变少,岗位要求还更高了。
最近,我们又陆续整理了很多大厂的口试题,资助一些球友解惑答疑,分享技能口试中的那些弯弯绕绕。
《AIGC 口试宝典》圈粉无数!
《大模型口试宝典》(2024版) 发布!
喜好本文记得收藏、关注、点赞。更多实战和口试互换,欢迎互换
Hyperparameter

超参数(Hyperparameter),是机器学习算法中的调优参数,用于控制模型的学习过程和布局。与模型参数(Model Parameter)差别,模型参数是在训练过程中通过数据学习得到的,而超参数是在训练之前由开辟者或实践者直接设定的,而且在训练过程中保持不变。
https://i-blog.csdnimg.cn/blog_migrate/6317461597e6530d4aedb205d96a4243.png
Hyperparameter vs Model Parameter
超参数是机器学习算法在开始执行前必要设置的一些参数,这些参数的值会影响算法的体现,但不会通过训练过程自动调解。

[*] 必要人工设置:超参数的值不是通过训练过程自动学习得到的,而是必要训练者根据经验或实验来设定。
[*] 影响模型性能:超参数的选择会直接影响模型的训练过程和终极性能。
[*] 必要优化:为了获得更好的模型性能,通常必要对超参数进行优化,选择最优的超参数组合。
必要本身设定,不是机器本身找出来的,称为超参数(hyperparameter)。
https://i-blog.csdnimg.cn/blog_migrate/501b0aeb7cc190ef35039935923a5662.jpeg
Hyperparameter
超参数大致可以分为三类:神经网络布局的超参数、神经网络训练过程的超参数和神经网络中过拟合的超参数。
https://i-blog.csdnimg.cn/blog_migrate/0e1c9fcf97b31eb176ed562315b41592.png
Hyperparameter
一、神经网络布局的超参数
直接影响神经网络布局的超参数主要包括网络层数(Layers)和每层的神经元数目(Neurons per Layer),它们共同决定了神经网络的深度和宽度,进而影响其学习复杂特性的本领、训练难度、计算资源需求以及大概存在的过拟合风险。此外,虽然激活函数(Activation Function)不直接改变网络布局,但它通过引入非线性变换,显著影响网络的表达本领和性能,是神经网络计划中不可忽视的关键因素。
https://i-blog.csdnimg.cn/blog_migrate/b71ad24b1b56f345287346c92f8017af.png
Directly affect the structure of the neural network

[*]网络层数和神经元数目


[*] 层数(Layers):神经网络中的层数是一个关键的超参数,它决定了网络的深度。层数越多,网络能够学习到的特性就越复杂,但同时也大概导致过拟合和训练难度的增长。
[*] 每层的神经元数目(Neurons per Layer):每一层中的神经元数目也是一个重要的超参数。神经元数目越多,网络的学习本领就越强,但同时也必要更多的计算资源和训练时间。
[*] 调解计谋:根据问题的复杂度和数据集的规模来选择合适的网络层数和神经元数目。通常,更深的网络和更多的神经元可以处理更复杂的问题,但也大概导致过拟合和计算本钱增长。

[*]激活函数(Activation Function)


[*] 定义:决定神经元怎样对其输入进行非线性变换。虽然激活函数本身不是直接改变网络布局的超参数,但差别的激活函数会影响网络的非线性本领和表达本领,从而间接影响网络的布局和性能。
[*] 常见范例:ReLU、Sigmoid、Tanh等。
[*] 选择计谋:根据详细任务和网络架构选择合适的激活函数。例如,ReLU函数因其简单性和有用性而在很多深度学习任务中广泛使用。
二、神经网络训练过程的超参数

直接影响神经网络训练过程的超参数包括学习率(Learning Rate)、批量巨细(Batch Size)、迭代次数(Epochs)和优化算法(Optimizer)。这些超参数共同决定了训练过程中模型权重的更新方式、训练速度、稳定性和终极性能。
https://i-blog.csdnimg.cn/blog_migrate/beb34a2bc28f34c14b123e18f9e0ab36.png
Directly control the training process of the neural network

[*] 学习率(Learning Rate)


[*] 定义:学习率决定了在优化过程中更新模型权重的步长。
[*] 影响:较高的学习率大概导致模型在训练过程中超过最优解,甚至导致训练过程发散;而较低的学习率则大概使训练过程收敛迟钝,必要更多的迭代次数。
[*] 调解计谋:通常必要通过实验找到合适的学习率,或者采用学习率调度计谋,如动态调解学习率或使用学习率衰减。

[*] 批量巨细(Batch Size)


[*] 定义:批量巨细指的是每次梯度降落迭代中使用的训练样本数目。
[*] 影响:较大的批量巨细可以加速训练过程,因为可以并行处理更多的样本,但大概导致内存不敷和泛化本领降落;较小的批量巨细可以引入更多的噪声,有助于模型跳出局部最优解,但训练过程大概不稳定且收敛速度较慢。
[*] 选择原则:必要根据硬件资源、数据集巨细和训练时间来选择合适的批量巨细。

[*] 迭代次数(Epochs)


[*] 定义:迭代次数指的是整个训练数据集被遍历和学习的次数。
[*] 影响:过少的迭代次数大概导致模型未能充分学习数据会合的特性,导致欠拟合;而过多的迭代次数则大概导致模型过拟合,即模型在训练集上体现很好,但在测试集上体现不佳。
[*] 调解计谋:通常必要通过观察验证集上的性能指标来确定合适的迭代次数。

[*] 优化算法(Optimizer)


[*] 定义:优化算法决定了怎样更新模型参数以最小化损失函数。
[*] 常见优化算法:包括随机梯度降落(SGD)、动量(Momentum)、RMSprop、Adam等。
[*] 影响:差别的优化算法具有差别的收敛速度和性能体现。例如,Adam优化器联合了动量和RMSprop的优点,能够自动调解学习率,通常比SGD具有更快的收敛速度和更好的性能。
[*] 选择原则:必要根据详细问题和数据集的特点选择合适的优化算法。
三、神经网络中过拟合的超参数

正则化系数(Regularization)是直接影响神经网络中过拟合问题的关键超参数。

https://i-blog.csdnimg.cn/blog_migrate/2e4c4ca52d6a59c6996db8e4ed4ff844.png


[*] 定义:正则化方法用于防止模型过拟合,通过在损失函数中添加正则化项来束缚模型的复杂度。
[*] 常见正则化方法:包括L1正则化、L2正则化、Dropout等。
[*] 影响:正则化方法可以有用地低落模型的复杂度,提高模型的泛化本领。但是,正则化强度过大会导致模型欠拟合。
[*] 调解计谋:必要根据验证集上的性能指标来调解正则化强度。
正则化系数是控制正则化强度的超参数。较大的正则化系数会对模型权重施加更强的束缚,低落模型的复杂度,从而镌汰过拟合。常见的正则化方法包括L1正则化和L2正则化、Dropout等。
https://i-blog.csdnimg.cn/blog_migrate/8d8d0aab8a6f2d65b610e67e9427f7a2.jpeg
Directly control the overfitting in the neural network


[*] L1正则化(Lasso Regularization):通过在损失函数中添加模型权重的绝对值之和作为惩罚项,鼓励模型产生稀疏的权重,即很多权重为零。这有助于模型的解释性,并大概镌汰过拟合。
[*] L2正则化(Ridge Regularization):通过在损失函数中添加模型权重的平方和作为惩罚项,鼓励模型权重趋于较小的值,但不会像L1那样产生完全为零的权重。L2正则化有助于平滑模型的决议边界,镌汰过拟合。
https://i-blog.csdnimg.cn/blog_migrate/601925560c73b5c7ae37bb8822e7a97b.png
L1、L2正则化


[*]Dropout:虽然严酷来说不是通过修改损失函数来实现的,但Dropout也是一种正则化技能。在训练过程中,它随机地将网络中肯定比例的神经元输出置为零,这相当于在每次迭代时训练一个差别的网络子集。这有助于镌汰神经元之间的共顺应性,从而提高模型的泛化本领。
https://i-blog.csdnimg.cn/blog_migrate/0d623fb091fcf0f4d1f419e8d9ab7e41.png
Dropout

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 一文彻底搞懂 Fine-tuning - 超参数(Hyperparameter)