1.什么是梯度消失和梯度爆炸
梯度消失是指梯度在反向传播的过程中渐渐变小,最终趋近于零,这会导致靠前层的神经网络层权重参数更新缓慢,甚至不更新,学习不到有效的特征。
梯度爆炸是指梯度在方向传播过程中渐渐变大,权重参数更新变革较大,导致损失函数的上下跳动,导致训练不稳定
可以利用一些公道的损失函数如relu, leakRelu,归一化处理,batchnorm,确保神经元的输出值在公道的范围内
2.为什么需要特征归一化
由于特征之间的单位与尺度差别,为了消除此间差别,对每个维度等同看待,防止尺度大的特征起决定性作用,所以需要进行特征归一化使差别特征在数值范围和尺度上保持同等。
长处:加速模型训练速率、提高模型性能、避免数值不稳定,增强模型的泛化本领
平均值归一化:
最大最小值归一化:
尺度化:
3.什么是组合特征,如何组合高阶特征
组合特征是指多个特征组合起来,作为新的特征,组合的方法有:基本运算、聚合、聚合后进行基本运算等。
组合高阶特征可以对类别特征进行embedding嵌入、然后对特征实施FM因子分解机特征组合。
Embedding是一种将类别特征转换为低维稠密向量的技能。具体来说,它将每个类别映射到一个固定维度的向量空间中
因子分解机(FM)是一种专门用于处理稀疏数据和特征组合的机器学习模型。它特殊擅长处理类别特征的交互(interaction)和组合。FM的焦点思想是:
- 将每个特征(包括类别特征的embedding)表示为一个向量。
- 通过计算特征向量之间的内积(点积),捕获特征之间的交互关系。
4.欧式间隔与曼哈顿间隔的区别
欧式间隔是定义在欧几里得空间中,两点之间的间隔,他具有显着的缺点是将样本差别属性之间的差别等同看待;曼哈顿间隔也叫城市区块间隔,是欧几里得空间上两点所形成的线段对轴产生的投影的间隔总和
4.为什么一些场景利用余弦相似度而不是欧式相似度
余弦相似度指的是两个向量之间的角度关系,并不关心他们的绝对值巨细,而欧式间隔体现的是数值上的绝对差别
余弦相似度:权衡的是两个向量之间的夹角,只关注方向,而不考虑向量的长度,对向量的方向差别敏感,但对长度不敏感
欧即里得间隔:权衡的是两个点在空间中的绝对间隔,关注的是向量的长度和位置
5.one-hot独热编码得作用是什么
将每个类别特征的取值转换为一个唯一的二进制向量,其中只有一个位置的值为1,别的位置的值为0。能够避免类别数据的序数关系,提供稀疏的特征表示,支持多类别特征的组合,并且与大多数算法兼容。然而,在处理类别数量较多的特征时,需要考虑其维度爆炸和稀疏性问题
6.参数模型和非参数模型
在统计学中,参数模型通常假设总体(随机变量)服从某一个分布,该分布由一些参数确定(好比正态分布由均值和方差确定),在此基础上构建的模型称为参数模型,参数模型的情势和复杂度在训练之前已经确定,模型的输出依赖于一组固定命量的参数.模型情势固定,参数量有限,训练速率块,线性回归、逻辑回归、感知机:所需样本量少、拟合快、复杂度低。
非参数模型对于总体的分布不做任何假设,只是知道总体是一个随机变量,其分布是存在的(分布中也大概存在参数),但是无法知道其分布的情势,更不知道分布的相关参数,只有在给定一些样本的条件下,能够依据非参数统计的方法进行推断。非参数模型的情势和复杂度在训练过程中根据数据动态确定,模型的输出不依赖于固定命量的参数。情势机动,参数不固定,训练慢。K近邻算法,SVM向量机,高斯过程。所需样本量多、拟合慢、轻易过拟合
7.L1和L2正则先验分别服从什么分布
L1:lasso回归拉普拉斯分布
L1正则化通过惩罚参数的绝对值,使得模型参数倾向于稀疏化,即许多参数会趋近于零。这种稀疏性可以帮助进行特征选择,减少模型复杂度
L2:岭回归,高斯分布,L2正则化通过惩罚参数的平方,使得模型参数的值保持较小,但不会将参数完全置为零。这种正则化方法有助于平滑模型,避免过拟合。
8.回归问题常用得模型评估方法
均方偏差:MSE预测值与实际值之差的平方的平均值。MSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好。
均方根偏差RMESE:均方偏差(MSE)的平方根,它权衡的是模型预测值与实际值之间的尺度差。RMSE的值越小,表示模型的预测结果越接近实际值,模型的性能越好
和方偏差:SSE=i=1∑n(yi−y^i)2
平均绝对偏差MAE:计算的是模型预测值与实际值之差的绝对值的平均值。
平均绝对百分比偏差MAPE
决定系数:表示模型表明的因变量的方差比例。R2的值介于0和1之间,值越接近1,表示模型对数据的拟合越好,即模型表明的方差比例越高
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |