网上学习资料一大堆,但如果学到的知识不成体系,遇到题目时只是浅尝辄止,不再深入研究,那么很难做到真正的技能提升。 必要这份系统化资料的朋友,可以戳这里获取 一个人可以走的很快,但一群人才华走的更远!不论你是正从事IT行业的老鸟或是对IT行业感爱好的新人,都接待参加我们的的圈子(技能交换、学习资源、职场吐槽、大厂内推、口试辅导),让我们一起学习成长!
E
w
,
b
=
∑
i
=
1
m
(
y
i
−
1
1
(
1
−
y
i
)
l
o
g
(
1
−
p
i
)
]
L=\frac{1}{N}\sum_iL_i=\frac{1}{N}\sum_i[y_ilog(p_i)+(1-y_i)log(1-p_i)]
L=N1∑iLi=N1∑i[yilog(pi)+(1−yi)log(1−pi)]
CE Loss:
L
=
1
N
∑
i
L
i
=
−
1
N
∑
i
∑
c
=
1
M
y
i
c
l
o
g
(
p
i
c
)
L=\frac{1}{N}\sum_iL_i=-\frac{1}{N}\sum_i \sum^M_{c=1}y_{ic}log(p_{ic})
L=N1∑iLi=−N1∑i∑c=1Myiclog(pic)
二分类和多分类的激活函数和丧失
二分类为什么用交叉熵丧失而不消MSE丧失?
令y表现数据的label,f(x)表现测试数据的预测值,
f
(
x
)
‾
\overline{f(x)}
f(x)表现学习算法对所有数据集的期望预测值。则偏差表现期望预测值
f
(
x
)
‾
\overline{f(x)}
f(x)与标志y之间的差距,差距越大说明偏差越大;而方差是测试预测值f(x)与预测值的期望值
f
(
x
)
‾
\overline{f(x)}
f(x)之间的差距,差距越大说明方差越大。偏差表征模子对数据的拟合能力;而方差表征数据集的变动导致的学习性能的变化,也就是泛化能力。
Layer Normalization 和 Batch Normalization
L
o
s
s
=
−
β
Y
l
o
g
Y
^
−
(
1
−
β
)
(
1
−
Y
)
l
o
g
(
1
−
Y
^
)
Loss=-\beta{Y}log\hat{Y}-(1-\beta)(1-Y)log(1-\hat{Y})
Loss=−βYlogY−(1−β)(1−Y)log(1−Y),其中Y是样本的标志,
Y
^
\hat{Y}
Y^是预测值,β是负样本和总体样本的比值。通过参加 β和1−β使得数量较少的正样本得到更多的关注,不至于被大量的负样本掩盖。
4. 组合/集成学习:比方正负样本比例1:100,则将负样本分成100份,正样本每次有放回采样至与负样本数雷同,然后取100次结果进行平均。
5. 数据加强:单样本加强如多少变换、颜色变换、增加噪声;多样本组合加强如Smote类、SamplePairing、Mixup等方法在特征空间内构造已知样本的邻域值样本;基于深度学习数据加强
特征选择
max_depth, min_child_weight: 首先将这两个参数设置为较大的数,通过迭代方式不停修正,缩小范围。max_depth每棵子树的最大深度,check from range(3,10,2)。min_child_weight子节点的权重阈值,check from range(1,6,2)。 如果一个结点分裂后,它的所有子节点的权重之和都大于该阈值,该叶子节点才可以划分。
gamma: 最小划分丧失min_split_loss,check from 0.1 to 0.5,对于一个叶子节点,当对它接纳划分之后,丧失函数的降低值的阈值。如果大于该阈值,则该叶子节点值得继承划分。如果小于该阈值,则该叶子节点不值得继承划分。
subsample, colsample_bytree: subsample是对练习的采样比例,colsample_bytree是对特征的采样比例,both check from 0.6 to 0.9
RF单颗树更深。Boosting紧张关注降低偏差,因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成;Bagging紧张关注降低方差,因此它在不剪枝的决策树、神经网络等学习器上效用更为明显。
Bagging算法会并行地练习很多不同的分类器来降低方差variance:
E
[
h
−
E
(
h
)
]
E[h−E(h)]
E[h−E(h)],因为接纳了相互独立的基分类器多了以后,h的值自然就会靠近E(h)。以是对于每个基分类器来说,目标就是降低偏差bias,以是会接纳深度很深乃至不剪枝的决策树。对于Boosting来说,每一步会在上一轮的基础上更加拟合原数据,以是可以保证偏差bias,以是对于每个基分类器来说,题目就在于怎样选择variance更小的分类器,即更简单的分类器,以是我们选择了深度很浅的决策树。
XGBoost和GBDT