( f ∗ g ) ( x , y ) = ∑ m ∑ n f ( m , n ) g ( x − m , y − n ) (f * g)(x, y) = \sum_{m} \sum_{n} f(m, n) g(x - m, y - n) (f∗g)(x,y)=m∑n∑f(m,n)g(x−m,y−n)
其中 f f f 为输入图像, g g g 为卷积核。
2. 池化层:下采样特性图(如最大池化、均匀池化),低沉维度。比方,2x2 最大池化将 4 个像素取最大值。
3. 全毗连层:将特性整合,用于分类或回归。
以 LeNet-5 为例,其包含两个卷积层和两个全毗连层,1998 年乐成应用于手写数字辨认(MNIST 数据集),奠定 CNN 基础。后来的 AlexNet(2012 年 ImageNet 冠军)引入 ReLU 激活和 Dropout 正则化;VGG(2014 年)加深至 19 层;ResNet(2015 年)通过残差毗连办理梯度消失题目,网络深度达 152 层。 YOLO 系列算法在目标检测中表现突出。YOLOv5(2020 年)通过 CSPDarknet 骨干网络和 PANet 特性融合,在精度和速度间取得平衡;YOLOv8(2023 年)引入注意力机制和无锚框筹划,检测精度提升 5%,实用于实时场景如安防监控。
其他技术如 天生对抗网络(GAN) 用于图像天生(如 StyleGAN 天生传神人脸),Vision Transformer(ViT,2021 年)引入自注意力机制,超越 CNN 在大尺度图像分类中的表现。2024 年,混合模子(如 ConvNeXt)结合卷积和 Transformer 优势,推动 CV 性能再创新高。
(二)CV 的应用范畴