农民 发表于 2024-7-19 14:19:49

从零编写一个神经网络完成手写数字的识别分类(pytorch实现)

1. 前言

很多人都有这样的困惑:
“我已经看过很多有关神经网络的书和视频了,但为什么感觉还是似懂非懂呢?”
那是因为,你从来都没有完整的、从头编写并训练过一个神经网络

学习AI相关的算法,尤其是深度学习方向;
真的不是学几个公式,相识几个名词概念就可以的。
因为深度学习,是一门实践课程!
举个例子:
激活函数、丧失函数、前向流传和反向流传,这些概念,相信大家都听过。
几个相关的问题,大家看看能不能答复出来。


激活函数:
激活函数必须要有吗?一般要放在哪里?
是放在线性层盘算后,还是放在线性层盘算前?
或者有没有都可以、放在哪都可以?

丧失函数:
丧失函数是用来做什么的?
有哪些常用的丧失函数?
分类问题用什么丧失函数?回归问题用什么丧失函数?

前向流传和反向流传:
什么是前向流传、什么又是反向流传?
为什么使用Pytorch,要定义前向流传forward函数?
梯度盘算是在前向流传的过程中,还是在反向流传的过程中?

对于上述这些简单问题,如果你觉得很模糊;
好像能答复出来,又好像答复不出来;
那只能阐明一个问题:
就是你从来没动手编写过神经网络。

本文,我会详细解说一个神经网络的编程案例,并附上代码。
大家看完这个案例后,动手写一写,然后再想一想;
就会发现,前面的那些问题,都能迎刃而解。

2. 问题简述

我要使用手写数字识别,这个例子:
https://i-blog.csdnimg.cn/direct/a660e2e3b2eb46c1a259bda94f8661fb.png
来阐明到底怎样设计、实现并训练一个标准的前馈神经网络。
详细来说,我们要设计并训练一个3层的神经网络:
https://i-blog.csdnimg.cn/direct/97973972ffc34a5486fa96c092bbb3b2.png

这个神经网络会以数字图像作为输入。经过神经网络的盘算,就会识别出图像中的数字是几,从而实现数字图像的分类。
在这个过程中,重点解说3个块内容:
1)神经网络的设计和实现
2)训练数据的预备和处理
3)模子的训练和测试流程。

3. 神经网络的设计和实现

首先需要观察数据的样子?
为了设计一个处理数字图像的神经网络,首先要弄清晰输入图像的巨细和格式。
https://i-blog.csdnimg.cn/direct/41dac7b961f14f15a4475660ddd3957a.png

此中,分辨率就是是图像的高和宽
可以发现,我们要处理的图片是,28*28像素的灰色单通道图像。
这样的灰色图像,包括了28*28=784个数据点。
每次在处理数字图像时,输入给神经网络的,就是这784个数据点。
在将它输入给神经网络前,这个28*28的二维图片向量,会被展平为1*784巨细的一维线性向量【因为我们使用的是线性模子,而非卷积模子】
https://i-blog.csdnimg.cn/direct/eb89a94336d743049a52216ae8c74814.png
比如这张图,左侧代表了28*28个像素对应的图像;
右侧是一个展平后的一维向量,包括了x0到x783,一共784个像素点。
这样这个向量才能被神经网络的输入层所接收和处理。

3.1 输入层的设计

我们会使用一个3层神经网络,来处理图片对应的向量x:
如图
https://i-blog.csdnimg.cn/direct/d1d09ac4f3884292be12b9e42f33a78e.png
输入层需要接收784维的图片向量x。图中的红色箭头,就代表了数据的输入。
x中的每一个维度的数据,都有一个神经元来接收。
因此,输入层就要包含784个神经元。

3.2 隐藏层的设计

隐藏层是指除了输入层的背面层数,也有的是说包含权重的层数,只需要记住,隐藏层的个数即是神经网络层数-1即可。例如本文实现的是3层神经网络,那么隐藏层的个数就是2
https://i-blog.csdnimg.cn/direct/cb73b04d422248ed99bdf9d324a9cf78.png
隐藏层用于特征提取,它将输入的特征向量,处理为更高级的特征向量。
由于手写数字图像并不复杂,这里就将隐藏层的神经元个数,设置为256。
   256就是个履历值,大家也可以设置为128、512,甚至999。
对于手写数字这个问题,并没有太大影响。
这样输入层与隐藏层之间,就会有一个784*256巨细的线性层。
它可以将一个784维的输入向量,转换为256维的输出向量。
该输出向量会继承向前流传,到达输出层。

3.3 输出层的设计

由于终极要将数字图像,识别为0到9,10种可能的数字;
因此,输出层需要定义10个神经元,对应这10种数字。
256维的向量,再经过隐藏层和输出层之间的线性层盘算后,就得到了10维的输出效果。
https://i-blog.csdnimg.cn/direct/4f2b358ecfc942c4abbdd1d6449a970f.png
这个10维的向量,就是代表了10个数字的预测得分。
不要忘了还得有softmax层!
为了继承得到10个数字的预测概率,我们还要将输出层的输出,输入到softmax层。
https://i-blog.csdnimg.cn/direct/bf7168d2ba94457989cfb811cb094e7e.png
softmax层会将10维的向量,转换为10个概率值,p0到p9。
每个概率值,都对应一个数字,也就是输入图片,是某一个数字的可能性。
另外,p0到p9这10个概率值,相加到一起的总和是1。
这是由softmax函数的性子决定的。
以上就是神经网络的设计思路。

3.4 代码实现

对于初学者,我知道很难直接按照这个设计思路,将代码编写出来。
大家最开始的时间,可以先模仿着写,举行练习;
慢慢的本身就会写出完整的模子了。
下面我会基于刚刚的思路,实现Pytorch代码。
如果想进一步理解代码,最好的方式还是将代码编写出来后,然后再将代码跑起来。
https://i-blog.csdnimg.cn/direct/cba364e23689426a9961056fd8155010.png
首先,定义神经网络Network。
在init函数中:
定义两个线性层layer1和layer2。
layer1和layer2分别是输入层和隐藏层、隐藏层和输出层之间的线性层。
它们的巨细分别是784*256和256*10。
也就是右侧图中,红色标志的layer1和layer2。

在前向流传,forward函数中:
函数的输入为图像x。
这个x就是1个或者多个,28*28像素数字图像。
在函数中,需要先将输入的图像x,使用view函数,将x展平。
也就是将n*28*28的数据,展平成n*784的数据。
然后将x输入至layer1;
接着使用relu激活;
最后输入至layer2盘算效果,再返回。
另外,需要注意的是:
我没有在forward中直接定义softmax层,
这是因为背面会使用CrossEntropyLoss丧失函数。
在这个丧失函数中,会实现softmax的盘算。

4. 训练数据的预备和处理

如果想要理解一个模子,我们要先理解给它输入的数据。
理解了数据定义和读取,再去看模子,会事半功倍。

4.1 训练数据哪里来?

手写数字识别的训练数据,可以直接使用MNIST数据集。
https://i-blog.csdnimg.cn/direct/1f0b07710eba4195a7d45101c5af2770.png
这个数据集可以从torchvision.datasets中获取。
这里会将数据分别保存到train和test两个目录中,此中:
https://i-blog.csdnimg.cn/direct/bbaaae0c58524e62ae22ec5487635f53.png
 
1) train有60000个数据
2)test有10000个数据
它们分别用来模子的训练和测试。
在train和test,这两个目录中,都包括了10个子目录:
https://i-blog.csdnimg.cn/direct/13bc930fe2ce4aee8b1b0d528195de18.png
子目录的名字就对应了图像中的数字。例如,在名为3的文件夹中,就保存了数字3的图像。
此中图像的名称是随机的字符串签名。

4.2 如那边理和读取这些数据?

完成数据的预备后,实现数据的读取功能,我会基于这一部门的代码举行解说。
初学者在学习这一部门时,只要知道大致的数据处理流程就可以了。
数据的处理包括三块内容。

第1步,图像数据预处理:
https://i-blog.csdnimg.cn/direct/1692afa3c95445d99fc6bb8f0440545a.png
需要实现图像的预处理pipeline,transform。
它包括了将图像转为灰度图和转张量两个功能。
这一步可以简单的理解为,将数组数据处理为训练时所用的张量数据。

第2步,构建数据集对象:
数据集对象的作用,就是用来整体操纵训练数据,可以更方便的访问这些数据。
https://i-blog.csdnimg.cn/direct/212878d1aac64b05ad118d54da0e085f.png
详细来说,使用ImageFolder函数,读取数据文件夹,构建数据集dataset。这个函数会将保存数据的文件夹的名字,作为数据的标签,组织数据。
例如,对于名字为“3”的文件夹,就会将“3”就会作为文件夹中的图像数据的标签。
标签和图像配对,用于后续的训练,ImageFolder使用起来非常方便。
这里我们分别读取训练数据文件夹train和测试数据文件夹test;
这样会得到train_dataset和test_dataset,两个数据集对象。
如果我们此时运行程序,会打印出它们的长度;
会看到,train_dataset是60000,test_dataset是10000。
这就代表了在训练集有60000个数据,测试会合有10000个数据。

第3步,小批量加载数据:
小批量加载数据直接和模子的训练有关。
小批量的数据读取,是训练各类深度学习模子的前提!
以下是创建小批量读取器dataloader的样例代码:
https://i-blog.csdnimg.cn/direct/1e55ede92c2f4ddb9ea731a18aef59a2.png
我们会使用train_loader,实现小批量的数据读取。
这里设置小批量的巨细,batch_size=64。
也就是每个批次,包括64个数据,一次盘算64个数据的梯度!
这时如果运行程序,会打印train_loader的长度,然后看到效果是938。
    详细来说,60000个训练数据,如果每个小批量,读入64个样本;
那么60000个数据会被分成938组。
我们可以盘算938*64=60032,不敷60000;
这就阐明最后一组,会不够64个数据。

小批量的遍历数据,是训练的关键前提 
我们可以通过循环遍历train_loader来获取每个小批量数据。
https://i-blog.csdnimg.cn/direct/29b93326ddf94980bb14d2d4bd7c38b1.png

这里的每一次循环,都会取出64个图像数据,作为一个小批量batch。
此时如果,打印前3个batch观察:
可以看到数据的尺寸data.shape是64*1*28*28:
它表现了每组数据包括64个图像;
每个图像有1个灰色通道;
图像的尺寸是28*28。
接着打印图像的标签label:
可以看到64个图片对应的数字。
此中保存的数值是0到9,对应了10个数字。

5. 模子训练

实际上,对于训练一个深度学习模子,训练后再测试这个深度学习模子;
这两个过程,都是定式。
也就是,无论你训练的模子简单还是复杂,是前馈神经网络还是Transformer,都是哪几个步骤。
当然,对于一些特殊的神经网络,可能会做一些专门的训练优化。
但本质还是那几个步骤,大家在看下面的解说时,重点是相识这些步骤;
对于每句代码的详细含义,如果真相搞懂,最好还是将代码写出来,然后举行运行和调试。

雷同的数据读入步骤
关于模子的训练,前半部门是图像数据的读入。
https://i-blog.csdnimg.cn/direct/ee271548b2d447a2a43c2b606e462e1c.png
包括:
1)图像的预处理transform
2)读入并构造数据集train_dataset
3)使用train_loader举行小批量的数据读入。
这一块和刚刚讲的是一样的。

创建核心对象(变量)
在使用Pytorch训练模子时,需要创建三个核心对象(变量)。
大家要记住,无论训练哪种深度学习模子;
下面说的这三个对象,都要创建!
https://i-blog.csdnimg.cn/direct/63552eef012741c6b3474036c6978a7f.png
第1个是:
模子本身model,它就是我们设计的神经网络。
第2个是:
优化器optimizer,它用来优化模子中的参数。
初学的时间,直接使用Adam优化器就可以了。
第3个是:
丧失函数criterion,对于分类问题,就直接使用CrossEntropyLoss,交叉熵丧失误差;

进入模子的循环迭代
模子的循环迭代,同样是定式!
大家记住,迭代深度学习模子,就是两层循环。
这两层循环,分别是:
表现训练轮数的外层循环;
表现梯度下降的内层循环!
https://i-blog.csdnimg.cn/direct/7b5621240e164176809866ae2e52ae32.png

详细来说:
外层循环,代表了整个训练数据集的遍历次数。
整个训练集要循环多少轮,是10次、20次或者100次都是可能的。
这里根据履历,设置为10次。
内层循环使用train_loader,举行小批量的数据读取。
内层循环,每循环一次,就会举行一次梯度下降算法。

梯度下降算法
内层循环所包含的梯度下降算法,包括了5个步骤。
这5个步骤,又是使用pytorch框架训练模子的定式。
初学的时间,可以先记住。
详细来说:
1)盘算神经网络的前向流传效果output。
2)盘算output和标签label之间的丧失loss。
3)使用backward盘算梯度。
4)使用optimizer.step更新参数。
5)最后将梯度清零。
另外,我们每迭代100个小批量,就打印一次模子的丧失,观察训练的过程。
运行程序,就会观察到,模子的丧失loss,不断变小。
最后使用torch.save保存模子,模子名字为mnist.pth。
这个“mnist.pth”就是我们最后得到的神经网络模子;
将来再举行数字图片的预测时,就要用它来识别图像。

6. 模子测试

完成模子训练后,需要对模子举行测试。
测试的流程与训练差不多,我们要测试出模子的效果。
测试的过程,也相当于模子的“使用过程”了。
前面是雷同的数据读入和模子定义:
https://i-blog.csdnimg.cn/direct/e9642696e7234021aed866556d8b4c2d.png
首先需要读取测试数据集test_dataset。
然后定义神经网络模子,并加载刚刚训练好的模子文件mnist.pth。
然后是遍历测试数据集,举行预测,统计正确率:
https://i-blog.csdnimg.cn/direct/9680f9d0555c4b40ad32372081b29a21.png
定义变量right,保存正确识别的数量。
遍历test_dataset,将此中的数据x输入到模子model中,盘算效果output。
然后从output中,使用argmax,选择概率最大标签的作为预测效果,保存到predict。
接着对比预测值predict和真实标签y。
这里将识别错误的样本打印了出来。
可以看到错误case的预测值predict、真实值y和文件路径。
终极盘算出的测试效果为0.978。
也就是10000个数据,有9779个数据识别正确。

以上就是从零设计并训练神经网络的过程。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 从零编写一个神经网络完成手写数字的识别分类(pytorch实现)