通用近似原理及证明-为什么神经网络可以拟合任意函数 ...

打印 上一主题 下一主题

主题 1776|帖子 1776|积分 5330

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
​ 通用近似定理(Universal Approximation Theorem)表明:
​ 一个至少有一个隐藏层的神经网络【输入层-隐藏层-输出层】,同时要求激活函数有挤压性质,如 Sigmoid 函数、ReLU 函数,且输出层是线性的。这样的神经网络在隐藏层神经元足够多的情况下,能以任意的精度去近似任何一连函数。
证明:
Step1. 问题界说:设F是一个界说在n维单位立方体                                   [                         0                         ,                         1                                   ]                            n                                       [0,1]^n                  [0,1]n上的一连函数族,                                   C                         (                         [                         0                         ,                         1                                   ]                            n                                  )                              C([0,1]^n)                  C([0,1]n)表示上的一连函数空间,对于                                   f                         ∈                         F                              f \in F                  f∈F,我们盼望用一个神经网络来迫近这个函数。
Step2. 构造单层前馈神经网络:输入                                   x                         =                         (                                   x                            1                                  ,                                   x                            2                                  ,                         ⋯                          ,                                   x                            n                                  )                         ∈                         [                         0                         ,                         1                                   ]                            n                                       x = (x_1, x_2, \cdots, x_n) \in [0, 1]^n                  x=(x1​,x2​,⋯,xn​)∈[0,1]n,输出为y,隐藏层有m个神经元,激活函数为                                   σ                              \sigma                  σ,输出层为线性函数y,                                             w                            i                                       w_i                  wi​是输出权重,                                             v                                       i                               ,                               j                                                 v_{i,j}                  vi,j​是输入权重,                                             b                            i                                       b_i                  bi​是偏置,则输出函数可表示为,其实                                             w                            i                                       w_i                  wi​是我们的要学习的参数
                                         y                            =                                       ∑                                           i                                  =                                  1                                          m                                                 w                               i                                      σ                                       (                                           ∑                                               j                                     =                                     1                                              n                                                      v                                               i                                     j                                                                  x                                  j                                          +                                           b                                  i                                          )                                            y = \sum_{i = 1}^{m} w_{i} \sigma \left( \sum_{j = 1}^{n} v_{ij} x_{j}+b_{i} \right)                     y=i=1∑m​wi​σ(j=1∑n​vij​xj​+bi​)
Step3. 构造丧失函数:
                                         E                            =                                       ∫                                           [                                  0                                  ,                                  1                                               ]                                     n                                                             (                            y                            −                            f                            (                            x                            )                                       )                               2                                      d                            x                                  E = \int_{[0,1]^n} (y - f(x))^2 dx                     E=∫[0,1]n​(y−f(x))2dx

Step4. Weierstrass 迫近定理表明对于任意给定的在闭区间上一连的函数,可以用 多项式函数来迫近。由于激活函数                                   σ                              \sigma                  σ是一连的,                                   ∀                         ϵ                         >                         0                         ,                         ∃                         p                         (                         x                         )                                                   ,                          s.t.                          ∣                         σ                         (                         x                         )                         −                         p                         (                         x                         )                         ∣                         <                         ϵ                         ,                         ∀                         x                         ∈                         R                              \forall \epsilon > 0, \exists p(x) \text{ }, \text{ s.t. }|\sigma(x)-p(x)|<\epsilon, \forall x\in\mathbb{R}                  ∀ϵ>0,∃p(x) , s.t. ∣σ(x)−p(x)∣<ϵ,∀x∈R
​ 进而化简误差函数和目标函数:
                                         y                            =                                       ∑                                           i                                  =                                  1                                          m                                                 w                               i                                      p                            (                                       ∑                                           j                                  =                                  1                                          n                                                 v                                           i                                  j                                                            x                               j                                      +                                       b                               i                                      )                                     E                            =                                       ∫                                           [                                  0                                  ,                                  1                                               ]                                     n                                                                                    (                                               ∑                                                   i                                        =                                        1                                                  m                                                           w                                     i                                              p                                               (                                                   ∑                                                       j                                           =                                           1                                                      n                                                                v                                                       i                                           j                                                                              x                                        j                                                  +                                                   b                                        i                                                  )                                              −                                  f                                  (                                  x                                  )                                  )                                          2                                      d                            x                                  y = \sum_{i = 1}^{m} w_{i}p(\sum_{j = 1}^{n} v_{ij}x_{j}+b_{i}) \\ E = \int_{[0,1]^n} \left( \sum_{i = 1}^{m} w_{i}p \left( \sum_{j = 1}^{n} v_{ij}x_{j}+b_{i} \right) - f(x) \right)^2 dx                     y=i=1∑m​wi​p(j=1∑n​vij​xj​+bi​)E=∫[0,1]n​(i=1∑m​wi​p(j=1∑n​vij​xj​+bi​)−f(x))2dx
Step5. 由于                                   f                              f                  f是一连函数,                                   p                              p                  p是多项式函数,所以函数                                             ∑                                       i                               =                               1                                      m                                            w                            i                                  p                                   (                                       ∑                                           j                                  =                                  1                                          n                                                 v                                           i                                  j                                                            x                               j                                      +                                       b                               i                                      )                                  −                         f                         (                         x                         )                              \sum_{i = 1}^{m} w_{i}p\left(\sum_{j = 1}^{n} v_{ij}x_{j}+b_{i}\right)-f(x)                  ∑i=1m​wi​p(∑j=1n​vij​xj​+bi​)−f(x)是一连函数。根据一连函数在闭区间上的性质(Weierstrass迫近定理),对于任意的                                   ϵ                         >                         0                              \epsilon > 0                  ϵ>0,存在一个正数                                   M                              M                  M,使得对于所有的                                   x                         ∈                         [                         0                         ,                         1                                   ]                            n                                       x\in [0, 1]^{n}                  x∈[0,1]n
                                                    ∣                                           ∑                                               i                                     =                                     1                                              m                                                      w                                  i                                          p                                           (                                               ∑                                                   j                                        =                                        1                                                  n                                                           v                                                   i                                        j                                                                        x                                     j                                              +                                               b                                     i                                              )                                          −                               f                               (                               x                               )                               ∣                                      <                                       ϵ                               2                                            \left|\sum_{i = 1}^{m} w_{i}p\left(\sum_{j = 1}^{n} v_{ij}x_{j}+b_{i}\right)-f(x)\right| < \frac{\epsilon}{2}                                    ​i=1∑m​wi​p(j=1∑n​vij​xj​+bi​)−f(x)               ​<2ϵ​
​ 绝对值小于,则去绝对值号可得到                                             ∫                                       [                               0                               ,                               1                                           ]                                  n                                                       (                         f                         (                         x                         )                         −                         f                         (                                   x                            ′                                  )                         )                          d                         x                         <                                   ϵ                            2                                       \int_{[0,1]^n} (f(x) - f(x')) \, dx < \frac{\epsilon}{2}                  ∫[0,1]n​(f(x)−f(x′))dx<2ϵ​ 得证。其实本质就是根据微分法将界说域区间分别为多少的小立方体,那么在每个小立方体上都可以用一个多项式函数                                             p                            i                                       p_i                  pi​来迫近                                   f                         (                         x                         )                              f(x)                  f(x)在该小立方体的上取值,将这些多项式函数组合即可得到y。
Step6. 终极可以使得对于所有的                                   x                         ∈                         [                         0                         ,                         1                                   ]                            n                                       x \in [0, 1]^n                  x∈[0,1]n,有                                   ∣                         y                         −                         f                         (                         x                         )                         ∣                         <                         ϵ                              \vert y - f(x) \vert < \epsilon                  ∣y−f(x)∣<ϵ,其中                                   ϵ                              \epsilon                  ϵ是一个任意小的正数,表示迫近的精度。得证神经网络可以以任意精度迫近任意非线性函数。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

祗疼妳一个

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表