人工智能中的卷积神经网络(CNN)综述

[复制链接]
发表于 2025-9-23 05:32:27 | 显示全部楼层 |阅读模式
文章目次

   
  前言
  1. CNN的根本原理
  1.1 卷积层
  1.2 池化层
  1.3 全连接层
  2. CNN的发展历程
  2.1 LeNet-5
  2.2 AlexNet
  2.3 VGGNet
  2.4 ResNet
  3. CNN的主要应用
  3.1 图像分类
  3.2 目的检测
  3.3 语义分割
  3.4 天然语言处置处罚
  4. 将来研究方向
  4.1 模型压缩与加速
  4.2 自监督学习
  4.3 跨模态学习
  结论
  
前言

卷积神经网络(Convolutional Neural Networks,CNN)是深度学习范畴中最重要和广泛应用的模型之一。自20世纪80年代提出以来,CNN在图像处置处罚、盘算机视觉、天然语言处置处罚等范畴取得了明显的乐成。本文旨在综述CNN的根本原理、发展历程、主要应用以及将来研究方向,并引用相干文献以支持叙述。
1. CNN的根本原理

CNN是一种专门用于处置处罚具有网格布局数据(如图像)的神经网络。其焦点思想是通过卷积操作提取局部特性,并通过池化操作低沉数据维度,从而实现对复杂模式的高效学习。
1.1 卷积层

卷积层是CNN的焦点构成部分。它通过卷积核(filter)在输入数据上滑动,提取局部特性。每个卷积核可以学习到差别的特性,比方边缘、纹理等。数学上,卷积操作可以表现为:

1.2 池化层

池化层用于低沉数据的空间维度,镌汰盘算量并防止过拟合。常见的池化操作包罗最大池化(Max Pooling)平静均池化(Averaged Pooling)。最大池化选择局部地区中的最大值,而匀称池化则盘算局部地区的匀称值。
1.3 全连接层

全连接层通常位于CNN的末了,用于将提取的特性映射到终极的输出种别。每个神经元与前一层的全部神经元相连,通过学习权重和偏置来实现分类或回归使命。
2. CNN的发展历程

CNN的发展履历了多个重要阶段。以下是一些关键里程碑:
2.1 LeNet-5

LeNet-5是由Yann LeCun等人在1988年提出的,用于手写数字辨认的CNN模型。它是第一个乐成应用于现实题目的CNN,奠基了当代CNN的底子(LeCun et al., 1998)。
2.2 AlexNet

AlexNet 是由Alex Krizhevsky等人在2012年提出的,在ImageNet图像分类比赛中取得了突破性结果。AlexNet引入了ReLU激活函数、Dropout和数据加强等技能,明显进步了CNN的性能(Krizhevsky et al.,2012)。
2.3 VGGNet

VGGNet由牛津大学的Visual Geometry Group提出,通过使用更深的网络布局和较小的卷积核(3x3),进一步提升了图像分类的正确性(Simonyan & Zisserman,2014)。
2.4 ResNet

ResNet(残差网络)由何恺明等人在2015年提出,通过引入残差连接(residual connections)办理了深层网络中的梯度消散题目,使得网络可以训练得更深(He et al.,2016)。
3. CNN的主要应用

CNN在多个范畴取得了广泛应用,以下是一些典范应用:
3.1 图像分类

图像分类是CNN最经典的应用之一。通过训练CNN模型,可以实现对图像中物体的主动分类。比方,ImageNet比赛中的许多优胜模型都是基于CNN的(Russakovsky et al.,2015)。
3.2 目的检测

目的检测不但必要辨认图像中的物体,还必要定位物体的位置。Faster R-CNN、YOLO 和SSD 等模型都是基于CNN的目的检测算法(Ren et.al.,2015;Redmon et al.,2016;Liu et al.,2016)。
3.3 语义分割

语义分割是将图像中的每个像素分类到特定的种别中。U-Net和FCN(全卷积网络)是常用的语义分割模型(Ronneberger et al.,2015;Long et al.,2015)。
3.4 天然语言处置处罚

尽管CNN最初是为图像处置处罚计划的,但它们在天然语言处置处罚(NLP)中也取得了乐成。比方,CNN可以同于文天职类、情绪分析和呆板翻译(Kim,2014)。
4. 将来研究方向

尽管CNN在许多使掷中表现出色,但仍有许多挑战和将来研究方向:
4.1 模型压缩与加速

随着CNN模型的深度和复杂度增长,盘算资源和存储需求也随之增长。模型压缩和加速技能(如剪枝、量化和知识蒸馏)是当前研究的热点(Han et al.,2015)。
4.2 自监督学习

自监督学习通过使用未标注数据进行预训练,镌汰对大量标注数据的依靠。将来,自监督学习有望在CNN中发挥更大作用(Jing & Tian,2020)。
4.3 跨模态学习

跨模态学习旨在将差别模态(如图像和文本)的信息联合起来,实现更复杂的使命。比方,图像形貌天生和视觉问答体系(VQA)都是跨模态学习的应用(Antol et al.,2015)。
结论

卷积神经网络(CNN)作为深度学习的重要构成部分,已经在多个范畴取得了明显的乐成。从LeNet-5到ResNet,CNN的发展历程展示了其在图像处置处罚、盘算机视觉和天然语言处置处罚中的强大能力。将来,随着模型压缩、自监督学习和跨模态学习等技能的发展,CNN将继承在人工智能范畴发挥重要作用。

参考文献
LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278-2324.
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Advances in neural information processing systems, 25, 1097-1105.
Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition, 770-778.
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... & Fei-Fei, L. (2015). ImageNet large scale visual recognition challenge. International journal of computer vision, 115(3), 211-252.
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28, 91-99.
Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. Proceedings of the IEEE conference on computer vision and pattern recognition, 779-788.
Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016). SSD: Single shot multibox detector. European conference on computer vision, 21-37.
Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional networks for biomedical image segmentation. International Conference on Medical image computing and computer-assisted intervention, 234-241.
Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition, 3431-3440.
Kim, Y. (2014). Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882.
Han, S., Pool, J., Tran, J., & Dally, W. (2015). Learning both weights and connections for efficient neural network. Advances in neural information processing systems, 28, 1135-1143.
Jing, L., & Tian, Y. (2020). Self-supervised visual feature learning with deep neural networks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(11), 4037-4058.
Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Lawrence Zitnick, C., & Parikh, D. (2015). VQA: Visual question answering. Proceedings of the IEEE international conference on computer vision, 2425-2433.


参考资料:临菲AI创研院

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

×
登录参与点评抽奖,加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表