IT评测·应用市场-qidao123.com

标题: 【NLP】 11. 神经网络,线性模子,非线性模子,激活函数,感知器优化,正则化学习方法 [打印本页]

作者: 钜形不锈钢水箱    时间: 2025-3-22 01:16
标题: 【NLP】 11. 神经网络,线性模子,非线性模子,激活函数,感知器优化,正则化学习方法
神经网络Neural Network

线性模子

                                         f                            (                            x                            )                            =                            x                            ∗                            W                                  f(x) = x * W                     f(x)=x∗W
score = features * weights
非线性模子

   Deep Learning: How do deep neural networks work? » Lamarr-Blog](https://lamarr-institute.org/wp-content/uploads/deepLearn_2_EN.png
  hidden_units_scores = g(features * weights1) weights2
input x 就是features x1,x2到scores的时间经过第一层权重(weights 1st layer), 这时间x和weights相乘得到了一个分数scores。 接着score进入激活函数,也就是公式之中的g(),激活函数的选择有多种,下面会先容。scores进入激活函数之后得到g(score)的结果,将其流传至隐藏层(如果网络只有2层,那么就流传到输出层),流传过程中又有一个权重,也就是weights2。
激活函数

1. sigmoid

                                         s                            i                            g                            m                            o                            i                            d                            (                            x                            )                            =                                       1                                           1                                  +                                               e                                                   −                                        x                                                                                sigmoid(x) = \frac{1}{1 + e^{-x}}                     sigmoid(x)=1+e−x1​
导数(梯度计算)

Sigmoid 的导数公式:
                                                    σ                               ′                                      (                            x                            )                            =                            σ                            (                            x                            )                            (                            1                            −                            σ                            (                            x                            )                            )                                  \sigma'(x) = \sigma(x) (1 - \sigma(x))                     σ′(x)=σ(x)(1−σ(x))
这个导数的特点:

其中:

   Derivative of the Sigmoid function | by Arc | TDS Archive | Medium](https://miro.medium.com/v2/resize:fit:1400/1*6A3A_rt4YmumHusvTvVTxw.png)
  2. tanh

                                         t                            a                            n                            h                            (                            x                            )                            =                                                                e                                     x                                              −                                               e                                                   −                                        x                                                                                            e                                     x                                              +                                               e                                                   −                                        x                                                                                tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}                     tanh(x)=ex+e−xex−e−x​
性质


导数

                                         t                            a                            n                                       h                               ′                                      (                            x                            )                            =                            1                            −                                                   tanh                                  ⁡                                          2                                      (                            x                            )                                  tanh'(x) = 1 - \tanh^2(x)                     tanh′(x)=1−tanh2(x)


   What is the derivative of f’(X) =tanh? - Quora](https://qph.cf2.quoracdn.net/main-qimg-f1baf29cfdb09202b18e2179f4f41bfc)
  Relu

                                         ReLU                            (                            x                            )                            =                            max                            ⁡                            (                            0                            ,                            x                            )                                  \text{ReLU}(x) = \max(0, x)                     ReLU(x)=max(0,x)
性质


导数(梯度计算)

                                                    ReLU                               ′                                      (                            x                            )                            =                                       {                                                                                                     1                                              ,                                                                                                                            x                                              >                                              0                                                                                                                                                  0                                              ,                                                                                                                            x                                              <                                              0                                                                                                             \text{ReLU}'(x) = \begin{cases} 1, & x > 0 \\ 0, & x < 0 \end{cases}                     ReLU′(x)={1,0,​x>0x<0​

优缺点

优点:

缺点:


   ReLU activation function and its derivative | Download Scientific Diagram](https://www.researchgate.net/publication/359884439/figure/fig3/AS:1147051651932161@1650489833478/ReLU-activation-function-and-its-derivative.png)
  模子优化:梯度下降流程与损失函数先容

梯度下降与损失函数优化概述

1. 什么是损失函数(Loss Function)?

损失函数是一个数学函数,用来衡量模子的猜测值与真实值之间的误差。损失函数越小,阐明模子的猜测越准确。
常见的损失函数包罗:

2. 什么是导数?

导数表示函数的变革率,也就是函数在某一点的斜率。

3. 梯度下降的焦点头脑

梯度下降(Gradient Descent)是一种优化算法,用于最小化损失函数。

4. 负梯度下降(Gradient Descent)

由于导数表示的是增加函数的方向,所以我们要朝着负梯度方向移动,让 Loss 变小:
                                                    w                               new                                      =                                       w                               old                                      −                            η                                                   d                                  L                                                      d                                  w                                                       w_{\text{new}} = w_{\text{old}} - \eta \frac{dL}{dw}                     wnew​=wold​−ηdwdL​
其中:

非线性办理XOR问题


   XOR gate using 2:1 MUX | VLSI Design Interview Questions With Answers - Ebook](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSfxjqx6oHBQvQ14y9uaQyHptTYdFqOaylpqdJjMjdhzpWN6G2S09cYVFgqmaLwteRM3yQ&usqp=CAU)
  ReLU(x1+ x2) - 2 (ReLU(x1 + x2 - 1) 办理XOR问题
point(0,0) : output = 0 - 0 = 0 -> 类别A
point (1, 0) : output = 1 - 0 = 1 -> 类别B
point (0, 1) : output = 1 - 0 = 1 -> 类别B
point (1, 1) : output = 2 - 2 = 0 -> 类别A
正则化学习方法


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4