24.11.26 神经网络参数初始化

尚未崩坏 · 2024-12-1 01:37:29

神经网络

感知神经网络

神经网络（Neural Networks）是一种模仿人脑神经元网络结构的盘算模子，用于处置惩罚复杂的模式识别、分类和猜测等任务

生物学：
人脑可以看做是一个生物神经网络，由众多的神经元毗连而成

树突：从其他神经元接收信息的分支
细胞核：处置惩罚从树突接收到的信息
轴突：被神经元用来通报信息的生物电缆
突触：轴突和其他神经元树突之间的毗连

人脑神经元处置惩罚信息的过程：

多个信号到达树突，然后整合到细胞体的细胞核中
当积累的信号超过某个阈值，细胞就会被激活
产生一个输出信号，由轴突通报。

神经网络由多个互相毗连的节点（即人工神经元）构成。

人工神经元

人工神经元(Artificial Neuron)是神经网络的基本构建单元，模仿了生物神经元的工作原理。其核心功能是接收输入信号，颠末加权求和和非线性激活函数处置惩罚后，输出结果。
构建人工神经元

人工神经元继承多个输入信息，对它们进行加权求和，再颠末激活函数处置惩罚，最后将这个结果输出。

构成部分

输入（Inputs）: 代表输入数据，通常用向量表现，每个输入值对应一个权重。
权重（Weights）: 每个输入数据都有一个权重，表现该输入对最闭幕果的重要性。
偏置（Bias）: 一个额外的可调参数，作用类似于线性方程中的截距，帮助调整模子的输出。
加权求和: 神经元将输入乘以对应的权重后求和，再加上偏置。
激活函数（Activation Function）: 用于将加权求和后的结果转换为输出结果，引入非线性特性，使神经网络能够处置惩罚复杂的任务。常见的激活函数有Sigmoid、ReLU（Rectified Linear Unit）、Tanh等。

数学表现

如果有 n 个输入 x_1, x_2, \ldots, x_n，权重分别为 w_1, w_2, \ldots, w_n，偏置为 b，则神经元的输出 y 表现为：

此中，\sigma(z) 是激活函数。

对比生物神经元

人工神经元和生物神经元对好比下表：
生物神经元人工神经元细胞核节点 (加权求和 + 激活函数)树突输入轴突带权重的毗连突触输出
深入神经网络

神经网络是由大量人工神经元按层次结构毗连而成的盘算模子。每一层神经元的输出作为下一层的输入，终极得到网络的输出。
基本结构

神经网络有下面三个底子层（Layer）构建而成：

输入层（Input）: 神经网络的第一层，负责接收外部数据，不进行盘算。
隐蔽层（Hidden）: 位于输入层和输出层之间，进行特性提取和转换。隐蔽层一般有多层，每一层有多个神经元。
输出层（Output）: 网络的最后一层，产生终极的猜测结果或分类结果

网络构建

我们使用多个神经元来构建神经网络，相邻层之间的神经元相互毗连，并给每一个毗连分配一个权重，经典如下：

留意：同一层的各个神经元之间是没有毗连的。
全毗连神经网络

全毗连（Fully Connected，FC）神经网络是前馈神经网络的一种，每一层的神经元与上一层的所有神经元全毗连，常用于图像分类、文本分类等任务。

特点

全毗连层: 层与层之间的每个神经元都与前一层的所有神经元相连。
权重数目: 由于全毗连的特点，权重数目较大，容易导致盘算量大、模子复杂度高。
学习本事: 能够学习输入数据的全局特性，但对于高维数据却不善于捕获局部特性（如图像就需要CNN）。

盘算步骤

数据通报: 输入数据颠末每一层的盘算，逐层通报到输出层。
激活函数: 每一层的输出通过激活函数处置惩罚。
损失盘算: 在输出层盘算猜测值与真实值之间的差距，即损失函数值。
反向传播（Back Propagation）: 通过反向传播算法盘算损失函数对每个权重的梯度，并更新权重以最小化损失。

参数初始化

神经网络的参数初始化是训练深度学习模子的关键步骤之一。初始化参数（通常是权重和偏置）会对模子的训练速率、收敛性以及终极的性能产生重要影响
固定值初始化

固定值初始化是指在神经网络训练开始时，将所有权重或偏置初始化为一个特定的常数值。这种初始化方法虽然简单，但在现实深度学习应用中通常并不保举。
全零初始化

将神经网络中的所有权重参数初始化为0。
方法：将所有权重初始化为零。
缺点：导致对称性粉碎，每个神经元在每一层中都会执行相同的盘算，模子无法学习。
应用场景：通常不消来初始化权重，但可以用来初始化偏置。

全1初始化

全1初始化会导致网络中每个神经元接收到相同的输入信号，进而输出相同的值，这就无法进行学习和收敛。所以全1初始化只是一个理论上的初始化方法，但在现实神经网络的训练中并不适用。
任意常数初始化

将所有参数初始化为某个非零的常数（如 0.1，-1 等）。虽然差别于全0和全1，但这种方法依然不能避免对称性粉碎的题目。

随机初始化

方法：将权重初始化为随机的小值，通常从正态分布或匀称分布中采样。
应用场景：这是最基本的初始化方法，通过随机初始化避免对称性粉碎。
Xavier 初始化

也叫做Glorot初始化。
方法：根据输入和输出神经元的数目来选择权重的初始值。权重从以下分布中采样：

或者

此中 n_{\text{in}} 是当前层的输入神经元数目，n_{\text{out}}是输出神经元数目。
优点：均衡了输入和输出的方差，得当Sigmoid 和 Tanh 激活函数。
应用场景：常用于浅层网络或使用Sigmoid 、Tanh 激活函数的网络。

He初始化

也叫kaiming 初始化。
方法：专门为 ReLU 激活函数设计。权重从以下分布中采样：

此中 n_{\text{in}} 是当前层的输入神经元数目。
优点：适用于ReLU 和 Leaky ReLU 激活函数。
应用场景：深度网络，尤其是使用 ReLU 激活函数时。
总结

在使用Torch构建网络模子时，每个网络层的参数都有默认的初始化方法，同时还可以通过以上方法来对网络参数进行初始化。
代码演示:

import torch
def t1():
# 任意常数初始化
model = torch.nn.Linear(4, 1)
print(model.weight)
model.weight.data.fill_(0)
print(model.weight)
def t2():
# 全1填充初始化
model = torch.nn.Linear(4, 1)
torch.nn.init.ones_(model.weight)
print(model.weight)
def t3():
# 任意常数初始化
model = torch.nn.Linear(4, 1)
torch.nn.init.constant_(model.weight, 0.63)
print(model.weight)
def t6():
# Xavier初始化：正态分布
linear = torch.nn.Linear(in_features=6, out_features=4)
torch.nn.init.xavier_normal_(linear.weight)
print(linear.weight)
# Xavier初始化：均匀分布
linear = torch.nn.Linear(in_features=6, out_features=4)
torch.nn.init.xavier_uniform_(linear.weight)
print(linear.weight)
def t7():
# He初始化均匀分布
model = torch.nn.Linear(6, 8)
torch.nn.init.kaiming_uniform_(model.weight)
print(model.weight)
# He初始化正态分布
model2 = torch.nn.Linear(6, 8)
torch.nn.init.kaiming_normal_(model2.weight)
print(model2.weight)
if __name__ == '__main__':
t1()
t2()
t3()
t6()
t7()

复制代码

激活函数

激活函数的作用是在隐蔽层引入非线性，使得神经网络能够学习和表现复杂的函数关系，使网络具备非线性本事，增强其表达本事。
底子概念

非线性理解

如果在隐蔽层不使用激活函数，那么整个神经网络会体现为一个线性模子。我们可以通过数学推导来展示这一点。

假设：

神经网络有L 层，每层的输出为
。
每层的权重矩阵为
，偏置向量为
。
输入数据为
，输出为
。

一层网络的环境
对于单层网络（输入层到输出层），如果没有激活函数，输出

可以表现为：

两层网络的环境
假设我们有两层网络，且每层都没有激活函数，则：

第一层的输出：
第二层的输出：

将

代入到

中，可以得到：

我们可以看到，输出

是输入

的线性变换，因为：

此中

，

。

多层网络的环境
如果有L层，每层都没有激活函数，则第l层的输出为：

通过递归代入，可以得到：

表达式可简化为：

此中，

是所有权重矩阵的乘积，

是所有偏置项的线性组合。

云云可以看得出来，无论网络多少层，意味着：
整个网络就是线性模子，无法捕获数据中的非线性关系。
激活函数是引入非线性特性、使神经网络能够处置惩罚复杂题目的关键。

1.2 非线性可视化

我们可以通过可视化的方式去理解非线性的拟合本事:：A Neural Network Playground

https://playground.tensorflow.org/
常见激活函数

sigmoid

import matplotlib.pyplot as plt
import torch
def t001():
# 一行两列的图像绘制
_, ax = plt.subplots(1, 2)
# 绘制函数图像
x = torch.linspace(-10, 10, 100)
y = torch.sigmoid(x)
# 网格
ax[0].grid(True)
ax[0].set_title("sigmoid")
ax[0].set_xlabel("x")
ax[0].set_ylabel("y")
# 绘制
ax[0].plot(x, y)
# 绘制sigmoid导数曲线图
x = torch.linspace(-10, 10, 100, requires_grad=True)
# 自动求导
torch.sigmoid(x).sum().backward()
ax[1].grid(True)
ax[1].set_title("sigmoid's plot", color="red")
ax[1].set_xlabel("x")
ax[1].set_ylabel("y")
# 用自动求导的结果绘制曲线图
ax[1].plot(x.detach().numpy(), x.grad.detach().numpy())
plt.show()
if __name__ == '__main__':
t001()

复制代码

tanh

import matplotlib.pyplot as plt
import torch
def t001():
# 一行两列的图像绘制
_, ax = plt.subplots(1, 2)
# 绘制函数图像
x = torch.linspace(-10, 10, 100)
y = torch.tanh(x)
# 网格
ax[0].grid(True)
ax[0].set_title("tanh")
ax[0].set_xlabel("x")
ax[0].set_ylabel("y")
# 绘制
ax[0].plot(x, y)
# 绘制sigmoid导数曲线图
x = torch.linspace(-10, 10, 100, requires_grad=True)
# 自动求导
torch.tanh(x).sum().backward()
ax[1].grid(True)
ax[1].set_title("tanh plot", color="red")
ax[1].set_xlabel("x")
ax[1].set_ylabel("y")
# 用自动求导的结果绘制曲线图
ax[1].plot(x.detach().numpy(), x.grad.detach().numpy())
plt.show()
if __name__ == '__main__':
t001()

复制代码

ReLU

import matplotlib.pyplot as plt
import torch
import torch.nn.functional as F
def t001():
# 一行两列的图像绘制
_, ax = plt.subplots(1, 2)
# 绘制函数图像
x = torch.linspace(-10, 10, 100)
y = F.relu(x)
# 网格
ax[0].grid(True)
ax[0].set_title("ReLU")
ax[0].set_xlabel("x")
ax[0].set_ylabel("y")
# 绘制
ax[0].plot(x, y)
# 绘制sigmoid导数曲线图
x = torch.linspace(-10, 10, 100, requires_grad=True)
# 自动求导
F.relu(x).sum().backward()
ax[1].grid(True)
ax[1].set_title("ReLU plot", color="red")
ax[1].set_xlabel("x")
ax[1].set_ylabel("y")
# 用自动求导的结果绘制曲线图
ax[1].plot(x.detach().numpy(), x.grad.detach().numpy())
plt.show()
if __name__ == '__main__':
t001()

复制代码

LeakyReLU

import matplotlib.pyplot as plt
import torch
import torch.nn.functional as F
def t001():
# 一行两列的图像绘制
_, ax = plt.subplots(1, 2)
# 绘制函数图像
x = torch.linspace(-10, 10, 100)
y = F.leaky_relu(x)
# 网格
ax[0].grid(True)
ax[0].set_title("leaky_ReLU")
ax[0].set_xlabel("x")
ax[0].set_ylabel("y")
# 绘制
ax[0].plot(x, y)
# 绘制sigmoid导数曲线图
x = torch.linspace(-10, 10, 100, requires_grad=True)
# 自动求导
F.leaky_relu(x).sum().backward()
ax[1].grid(True)
ax[1].set_title("leaky_ReLU plot", color="red")
ax[1].set_xlabel("x")
ax[1].set_ylabel("y")
# 用自动求导的结果绘制曲线图
ax[1].plot(x.detach().numpy(), x.grad.detach().numpy())
plt.show()
if __name__ == '__main__':
t001()

复制代码

softmax

如何选择

手写笔记

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

24.11.26 神经网络参数初始化

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

24.11.26 神经网络 参数初始化

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块

24.11.26 神经网络参数初始化