从 AlexNet 到 Swin Transformer:计算机视觉架构演进图谱

打印 上一主题 下一主题

主题 2128|帖子 2128|积分 6384

在计算机视觉范畴,模子架构的演进宛如一场精彩绝伦的技术接力赛,从早期的 CNN 渐渐过渡到现在大放异彩的 Transformer,每一次关键节点的突破都为整个范畴注入了强大的动力,推动着视觉任务的性能迈向新的高度。本文将沿着时间轴,梳理这一演进路径中具有里程碑意义的模子以及 Transformer 的突破性成果,展现技术迭代的脉络。

1.早期奠定:LeNet-5,CNN 的破晓之光(1998 年)


         在 20 世纪 90 年代,计算机视觉范畴正处于探索的关键时期,传统的模式识别方法在面对复杂的图像数据时,渐渐体现出其范围性。例如,在手写数字识别这一任务中,传统方法依赖手工设计特征提取器,难以有效应对图像中的平移、形变和扭曲等变化,识别正确率始终难以取得突破性进展 。就在这样的配景下,1998 年,Yann LeCun 等人提出了 LeNet-5,这一开创性的卷积神经网络架构,犹如一道破晓之光,为计算机视觉范畴带来了新的盼望和方向。
         LeNet-5 的诞生,负担着办理手写数字识别难题的任务。它的设计初志是为了可以或许主动从图像中提取特征,从而摆脱对人工设计特征提取器的依赖。其网络布局简洁而精妙,固然在现在看来相对简单,但却涵盖了 CNN 的所有根本元素,为后续更复杂的神经网络架构奠定了坚固的基础。
         LeNet-5 的输入是 32x32 像素的灰度图像,这一尺寸的选择经过了经心考量,既可以或许生存足够的数字特征信息,又在当时有限的计算资源条件下,确保了模子可以或许举行有效的处理。整个网络布局犹如一座经心构建的大厦,从下往上依次由卷积层、池化层和全毗连层组成。
         卷积层是这座大厦的基石,LeNet-5 中包含多个卷积层,如 C1 层使用了 6 个 5x5 的卷积核,步长为 1,对输入图像举行卷积利用后,得到 6 个 28x28 的特征图。这些卷积核就像是一群勤劳的工匠,各自专注于学习图像中的不同局部特征,比如边沿、线条等。通过卷积利用,图像的局部特征被有效地提取出来,为后续的处理提供了丰富的信息。
         池化层则像是大厦中的筛选器,S2 层采用 2x2 的最大池化利用,步长为 2,对 C1 层输出的特征图举行降维处理。经过池化后,特征图的巨细变为 14x14 。这一利用不但淘汰了数据量,低落了计算负担,还能有效地生存紧张的特征信息,增强模子对图像平移、旋转等变化的鲁棒性。就好比在众多的信息中,筛选出最关键、最核心的部分,让模子可以或许更加聚焦于紧张的特征。
         全毗连层位于大厦的顶层,是模子举行决议的关键部分。以 F6 层为例,它将 C5 层的输出展平后毗连到 84 个神经元,这一步实现了特征的进一步整合和抽象。而输出层则由 10 个神经元组成,对应着 0 - 9 这 10 个数字种别,采用 softmax 激活函数将神经元的输出转换为每个种别的概率分布,从而确定输入图像最可能属于的数字种别。
         LeNet-5 的训练算法与传统的反向传播算法相似,包罗前向传播和反向传播两个阶段。在前向传播阶段,输入样本通过每一层的变换,计算现实输出;而反向传播阶段则计算现实输出与抱负输出的差值,并通过链式法则反向传播偏差,调解权值以最小化偏差。这一过程就像是一场经心编排的舞蹈,前向传播和反向传播相互共同,使得模子可以或许不断学习和优化。
         LeNet-5 的出现,在当时取得了令人瞩目的成果,它成功地将深度学习应用于手写数字识别范畴,证明了深度学习在图像识别任务中的巨大潜力。在 MNIST 手写数字识别数据集上,LeNet-5 展现出了良好的性能,达到了很高的识别正确率,为厥后深度学习在计算机视觉范畴的广泛应用奠定了基础。很多后续的研究都基于 LeNet-5 举行改进和拓展,它的根本布局和思想也被广泛应用于各种图像识别任务中,成为了深度学习发展史上的一座紧张里程碑。

2.崭露锋芒:AlexNet,深度学习的曙光初现(2012 年)


         2012 年,AlexNet 横空出世,在 ImageNet 大规模视觉识别挑战赛(ILSVRC)中,AlexNet 以绝对优势击败其他参赛模子,取得了前 5 错误率 15.3% 的惊人结果,而第二名的错误率高达 26.2% 。这一结果震动了整个计算机视觉范畴,也让人们重新熟悉到深度学习的巨大潜力。
         AlexNet 的成功并非偶然,它的出现得益于多方面的突破。在硬件方面,NVIDIA 公司推出的高性能 GPU,如 GTX 580,为大规模深度学习模子的训练提供了强大的计算支持。GPU 的并行计算本领使得卷积神经网络中的大量矩阵运算可以或许高效完成,大大收缩了训练时间。在软件算法上,AlexNet 引入了 ReLU 激活函数,有效办理了传统 sigmoid 函数在深度网络中容易出现的梯度消散问题,使得网络的训练更加稳定和高效。同时,Dropout 正则化技术的应用,也极大地淘汰了模子的过拟合现象,进步了模子的泛化本领。这些创新使得 AlexNet 在图像分类任务中展现出了良好的性能,为深度学习在计算机视觉范畴的广泛应用奠定了坚固的基础。

3.持续进化:经典 CNN 模子的百花齐放(2013 - 2019 年)unsetunset

(一)ZFNet(2013 年)

  
         在 AlexNet 取得巨大成功后,研究人员开始对其举行深入研究和改进,2013 年,ZFNet 应运而生,它由纽约大学的 Matthew Zeiler 和 Rob Fergus 提出,在当年的 ILSVRC 比赛中斩获冠军,将错误率低落至 11.2% 。从本质上讲,ZFNet 可以看作是 AlexNet 架构的微调优化版本,但其在优化性能方面提出了一些关键的想法,为后续的研究提供了紧张的思绪。
         ZFNet 在布局上对 AlexNet 举行了一些细微的调解。它将 AlexNet 中第一个卷积层的卷积核巨细从 11x11 改为 7x7,步长从 4 改为 2。这样的调解有助于更好地生存图像的原始像素信息,淘汰信息的丢失。同时,ZFNet 增长了第三、第四个卷积层的卷积核个数,进一步增强了网络对图像特征的提取本领。更多的卷积核意味着网络可以学习到更多不同范例的特征,从而进步模子的表达本领。
         除了布局上的改进,ZFNet 还提出了一种新奇的可视化技术 ——Deconvolutional Networks(反卷积网络),这一技术为明白卷积神经网络的内部机制提供了有力的工具。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

鼠扑

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表