前言:在深度学习的世界中,卷积神经网络(CNN)已经成为图像辨认的中流砥柱。与很多其他重大发现一样,它的发展也充满了坎坷。对于CNN原理的初步研究可以追溯到Hubel和Wiesel在1950年代和1960年代对于视觉机制的研究。20世纪60~70年代,日本科学家福岛邦彦提出了人类历史上首个CNN网络,但参数必要手动设计。迁徙变革发生在1989年,这一年Bell实验室的LeCun等人在《Backpropagation Applied to Handwritten Zip Code Recognition》中初次使用反向传播训练了CNN网络,并取得了不错的成果,这一成果也成为了台甫鼎鼎的LeNet的雏形。同年,LeCun等人又在《Handwritten Digit Recognition with a Back-Propagation Network》中提出了更为成熟的版本,该论文引入平均池化层,大大降低了参数量并进步了鲁棒性。这个网络就是著名的LeNet1——深度学习史上最著名的网络之一。本日我们就来尝试解读下《Handwritten Digit Recognition with a Back-Propagation Network》这一篇论文,由于它的架构更为成熟,也与现代架构更为接近。希望本文能资助大家从源头更加深入地明白CNN。
同时,由于本人程度有限,本文还有很多解释不够清晰或者错误的地方,恳请读者指正。
Abstract(摘要)
We present an application of back-propagation networks to handwritten digit recognition. Minimal preprocessing of the data was required, but the architecture of the network was highly constrained and specifically designed for the task. The input of the network consists of normalized images of isolated digits. The method has a 1% error rate and about a 9% reject rate on zipcode digits provided by the U.S. Postal Service.
翻译:我们展示了反向传播网络在手写数字辨认中的应用。数据所需的预处理非常少,但网络的架构受到严酷限定,并专门为此任务设计。网络的输入由标准化的孤立数字图像组成。该方法的错误率为1%,在美国邮政服务提供的邮政编码数字上拒绝率约为9%。
第一句说明了论文的目的:手写数字辨认。这是一个经典的任务,许多深度学习初学者在学习过程中都会使用这个任务进行练习。该任务属于底子的分类标题,共有10个种别,网络吸收一张图像作为输入,并输出种别标识0至9。
“Minimal preprocessing of the data was required”强调了深度学习的一个告急特性:自动特性提取。深度学习模型能直接处理原始输入数据,例如图像、音频或文本,神经网络能够自动提取特性,而无需进行复杂的手动特性工程。而在深度学习之前,人们实现雷同任务的过程更复杂,比如通过空域和频域的互相转换、主成分分析(PCA)等手段对数据进行预处理使其适应各类复杂的特性提取算法。特性也每每是手动设计的,操纵难度极大的同时效果也每每不慎理想,尽管它们在计算上可能更高效。
“the architecture of the network was highly constrained”则指出了神经网络的一个限定:输入输出的固定性。一样平常来说,神经网络要求输入具有固定大小,并生成固定大小的输出,这在许多现实应用中可能不够灵活。为了办理这一标题,研究者们提出了多种策略,比如使用序列模型(如循环神经网络)、自注意力机制(如Transformer),以及变长卷积等方法。另一方面,针对输入数据的调解也是一种有用的办理方案,例如通过填充、裁剪或数据加强等手段,使数据适应模型要求。“specifically designed for the task”说明本论文选择了从数据下功夫,所有数据的大小被调解为一致的并进行标准化处理,从而保证输入格式精确。
从末了一句来看,本论文取得了一个很高的精确率。其中“reject rate”指如果对判断效果的信息不够高或认为该图像不符合辨认标准,它会将其拒绝处理,而不是给出一个可能不准确的分类效果。
1. Introduction(引入)
The main point of this paper is to show that large back-propagation (BP) networks can be applied to real image-recognition problems without a large, complex preprocessing stage requiring detailed engineering. Unlike most previous work on the subject (Denker et al., 1989), the learning network is directly fed with images, rather than feature vectors, thus demonstrating the ability of BP networks to deal with large amounts of low-level information.
翻译:这篇论文的重要观点是,大型反向传播网络可以应用于真实的图像辨认标题,而无需复杂的预处理阶段和具体的工程设计。与以往大多数相干研究(Denker 等,1989)差别,学习网络直接吸收图像作为输入,而不是特性向量,这展示了 BP 网络处理大量低级信息的能力。
这里解释一下末了一句。“低级信息”通常指图像中的低级特性,如颜色、角点、边缘和纹理等。传统方法可以通过Canny边缘检测、Harris角点等技能获得这些特性,而在深度学习中,这些低级特性的提取一样平常由神经网络的前几层负责。神经网络通过多层结构逐层提取特性,能够逐渐获取更高级的特性,如外形和模式,甚至动作与姿态等复杂信息。这一过程使得模型能够在差别层次上明白图像内容。
文中提到的“特性向量”正是对高级特性的一种表达情势。你可以把它看作是数据的“简化形貌”,它保存了数据中对任务最告急的特性,并以一个向量的情势存储,非常恰当神经网络。特性向量可以通过预训练模型获得,这意味着我们可以直接使用用特性向量作为下游任务的输入,从而省去大量的训练工作。例如,在天然语言处理中,我们就可以用预训练模型生成一个Embedding向量,然后使用它微调下游任务,例如文天职类、情感辨认、实体辨认等。
传统方法依赖手动特性提取,特性向量作为输入意味着研究者需设计特性提取算法,这一过程既耗时又主观。相比之下,深度学习模型仅需输入原始图像,就能够自动从低级到高级进行特性提取。这种自动化特性学习明显降低了建模的复杂性和难度,同时进步了模型的适应性和性能。
Previous work performed on simple digit images(Le Cun, 1989)showed that the architecture of the network strongly influences the network’s generalization ability. Good generalization can only be obtained by designing a network architecture that contains a certain amount of a priori knowledge about the problem. The basic design principle is to minimize the number of free parameters that must be determined by the learning algorithm, without overly reducing the computational power of the network. This principle increases the probability of correct generalization because it results in a specialized network architecture that has a reduced entropy (Denker et al., 1987; Patarnello and Carnevali, 1987; Tishby, Levin and Solla, 1989; Le Cun, 1989). On the other hand, some effort must be devoted to designing appropriate constraints into the architecture.
翻译:以往在简单数字图像上进行的研究(Le Cun,1989)表明,网络架构对网络的泛化能力有很大影响。只有通过设计包罗一定先验知识的网络架构,才能获得良好的泛化效果。根本设计原则是最小化学习算法必须确定的自由参数数量,同时不明显降低网络的计算能力。该原则进步了精确泛化的概率,由于它导致了具有较低熵值的专用网络架构(Denker 等,1987;Patarnello 和 Carnevali,1987;Tishby、Levin 和 Solla,1989;Le Cun,1989)。另一方面,必须在架构设计中投入一些精力以设定适当的束缚。
首先解释一下“先验知识”。先验知识是指在特定领域或任务中,基于经验、理论或观察获得的有关数据或模型特性的知识,简单来说就是已知的信息。固然科学家们一直在探索完全打扫人类主观介入的方法,但先验知识的引入偶然至关告急。例如,如果图像处理使用全连接网络,将会产生巨大的计算量。而基于图像局部性设计的卷积神经网络则明显降低了参数数量,使复杂的图像处理任务变得可行。
在设计神经网络时,告急的原则是控制参数数量和公道配置层数。你如果尝试过调参,就会惊奇的发现,很多时间参数只是略微调解,效果就天差地别。一样平常而言,过多的参数会导致过拟合,由于模型过于复杂,容易记住训练数据的细节,而不是学习到一样平通例律(就像死记硬背知识点的学生)。这使得模型在新数据上表现不佳(即泛化能力差)。因此,论文提出必要“最小化学习算法必须确定的自由参数数量”,以确保模型学习到一样平通例律,从而能够泛化到未知数据中。
2. Zipcode Recognition(邮政编码辨认)
The handwritten digit-recognition application was chosen because it is a relatively simple machine vision task: the input consists of black or white pixels, the digits are usually well-separated from the background, and there are only ten output categories. Yet the problem deals with objects in a real two-dimensional space and the mapping from image space to category space has both considerable regularity and considerable complexity. The problem has added attraction because it is of great practical value.
翻译:选择手写数字辨认应用是由于它是一个相对简单的机器视觉任务:输入由黑白像素组成,数字通常与背景有良好的分离,而且只有十个输出种别。然而,这个标题涉及真实的二维空间中的对象,图像空间到种别空间的映射既具有相当的规律性,又具有相当的复杂性。这个标题的吸引力在于它具有很大的现实价值。
这里没有太多必要解释的。“输入由黑白像素组成”指可以使用0/1的二值图像进行处理,这明显降低了数据量和处理难度。
The database used to train and test the network is a superset of the one used in the work reported last year (Denker et al., 1989). We emphasize that the method of solution reported here relies more heavily on automatic learning, and much less on hand-designed preprocessing.
翻译:用于训练和测试网络的数据库是客岁的研究(Denker等,1989)所用数据库的超集。我们强调,此处陈诉的办理方案方法更依赖于自动学习,较少依赖于手工设计的预处理。
The database consists of 9298 segmented numerals digitized from handwritten zipcodes that appeared on real U.S. Mail passing through the Buffalo, N.Y. post office. Examples of such images are shown in figure 1. The digits were written by many different people, using a great variety of sizes, writing styles and instruments, with widely varying levels of care. This was supplemented by a set of 3349 printed digits coming from 35 different fonts. The training set consisted of 7291 handwritten digits plus 2549 printed digits. The remaining 2007 handwritten and 700 printed digits were used as the test set. The printed fonts in the test set were different from the printed fonts in the training set. One important feature of this database, which is a common feature to all real-world databases, is that both the training set and the testing set contain numerous examples that are ambiguous, unclassifiable, or even misclassified.
翻译:该数据库由9298个从真实美国邮政邮件中数字化的手写邮政编码组成,这些邮件经过纽约州布法罗的邮局。图1展示了这些图像的示例。这些数字由许多差别的人誊写,使用了各种尺寸、誊写风格和工具,誊写质量差异很大。此外,还补充了来自35种差别字体的3349个打印数字。训练集包括7291个手写数字和2549个打印数字。剩余的2007个手写数字和700个打印数字用作测试集。测试集中的打印字体与训练集中的打印字体差别。该数据库的一个告急特性(这是所有真实世界数据库的共同特性)是,训练集和测试集中都包罗许多模糊、无法分类或甚至被错误分类的例子。
整理一下数据集信息:
数据集手写数字数量打印数字数量总数量训练集729125499840测试集20077002707总计9298324912547 3. Preprocessing(预处理)
Acquisition, binarization, location of the zip code, and preliminary segmentation were performed by Postal Service contractors (Wang and Srihari, 1988). Some of these steps constitute very hard tasks in themselves. The segmentation (separating each digit from its neighbors) would be a relatively simple task if we could assume that a character is contiguous and is disconnected from its neighbors, but neither of these assumptions holds in practice. Many ambiguous characters in the database are the result of mis-segmentation (especially broken 5’s) as can be seen on figure 2.
翻译:邮政编码收罗、二值化、位置确定和初步分割均由邮政服务承包商(Wang 和 Srihari,1988)完成。其中一些步调自己就黑白常困难的任务。如果我们能够假设字符是连续的,而且与相近字符不相连,那么分割(将每个数字与其邻人分开)将是一个相对简单的任务,但现实上这两个假设都不建立。数据库中的许多模糊字符(尤其是断裂的数字5)都是由于错误分割造成的,具体情况见图2。
数据预处理在深度学习中至关告急。它包括清洗、标准化、归一化等步调,旨在提升模型性能和训练效率。通过去除噪声、处理缺失值、缩放特性范围,预处理有助于加快收敛速度,降低过拟合风险。此外,适当的数据加强技能还能进步模型的泛化能力。有用的数据预处理每每是成功训练深度学习模型的底子。在这篇论文中,作者仅关注了单个字符的辨认,字符位置框定等预处理步调由人工完成。
这里数据的获取方式也值得说道说道。深度学习每每必要大量的数据进行训练,然而数据的获取每每较为困难。一些较为大众的任务可以直接通过网络进行搜集,但一些非常专业的任务就难以获取了。一种办理方案是通过专门的数据标注师,有多少人工就有多少智能,你的大语言模型背后也许实在是个阿三( |