f ( x ) = x ∗ W f(x) = x * W f(x)=x∗W
score = features * weights
非线性模子
Deep Learning: How do deep neural networks work? » Lamarr-Blog](https://lamarr-institute.org/wp-content/uploads/deepLearn_2_EN.png
hidden_units_scores = g(features * weights1) weights2
input x 就是features x1,x2到scores的时间经过第一层权重(weights 1st layer), 这时间x和weights相乘得到了一个分数scores。 接着score进入激活函数,也就是公式之中的g(),激活函数的选择有多种,下面会先容。scores进入激活函数之后得到g(score)的结果,将其流传至隐藏层(如果网络只有2层,那么就流传到输出层),流传过程中又有一个权重,也就是weights2。
激活函数
1. sigmoid
s i g m o i d ( x ) = 1 1 + e − x sigmoid(x) = \frac{1}{1 + e^{-x}} sigmoid(x)=1+e−x1 导数(梯度计算)
Sigmoid 的导数公式:
σ ′ ( x ) = σ ( x ) ( 1 − σ ( x ) ) \sigma'(x) = \sigma(x) (1 - \sigma(x)) σ′(x)=σ(x)(1−σ(x))
这个导数的特点:
当 x 远离 0(即 x≫0 或 x≪0)时,梯度趋近于 0,容易导致梯度消失问题。
当 x=0 时,梯度最大,约为0.25。
其中:
Derivative of the Sigmoid function | by Arc | TDS Archive | Medium](https://miro.medium.com/v2/resize:fit:1400/1*6A3A_rt4YmumHusvTvVTxw.png)
2. tanh
t a n h ( x ) = e x − e − x e x + e − x tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} tanh(x)=ex+e−xex−e−x 性质
ReLU activation function and its derivative | Download Scientific Diagram](https://www.researchgate.net/publication/359884439/figure/fig3/AS:1147051651932161@1650489833478/ReLU-activation-function-and-its-derivative.png)
模子优化:梯度下降流程与损失函数先容
均方误差(MSE, Mean Squared Error):
MSE = 1 n ∑ ( y true − y pred ) 2 \text{MSE} = \frac{1}{n} \sum (y_{\text{true}} - y_{\text{pred}})^2 MSE=n1∑(ytrue−ypred)2
交叉熵损失(Cross-Entropy Loss):
Cross-Entropy = − ∑ y true log ( y pred ) \text{Cross-Entropy} = - \sum y_{\text{true}} \log(y_{\text{pred}}) Cross-Entropy=−∑ytruelog(ypred)
2. 什么是导数?
导数表示函数的变革率,也就是函数在某一点的斜率。
若函数的导数为正,表示函数在该点是上升趋势。
若函数的导数为负,表示函数在该点是下降趋势。
若导数为 0,表示函数在该点可能是极值点(最小值或最大值)。
3. 梯度下降的焦点头脑
梯度下降(Gradient Descent)是一种优化算法,用于最小化损失函数。
梯度(Gradient): 代表损失函数相对于参数的导数,即参数变革时损失的变革率。
下降(Descent): 为了减少损失,我们必要沿着梯度的负方向更新参数。
4. 负梯度下降(Gradient Descent)
由于导数表示的是增加函数的方向,所以我们要朝着负梯度方向移动,让 Loss 变小:
w new = w old − η d L d w w_{\text{new}} = w_{\text{old}} - \eta \frac{dL}{dw} wnew=wold−ηdwdL
其中: