qidao123.com技术社区-IT企服评测·应用市场

标题: 【AI算法岗口试八股面经【超全整理】——CV】 [打印本页]

作者: 曂沅仴駦    时间: 2025-5-11 05:01
标题: 【AI算法岗口试八股面经【超全整理】——CV】
AI算法岗口试八股面经【超全整理】

整理好的PDF版本在资源上,https://download.csdn.net/download/weixin_46570668/90479945

  
1、图像处置惩罚中一样平常用最大池化而不用平均池化

池化的主要目标:

最大池化更能捕捉图像上的变化、梯度的变化,带来更大的局部信息差异化,从而更好地捕捉边沿、纹理等特征。平均池化会淡化或错过特征是否存在的信息。
2、计算感受野

卷积层和池化层都会影响感受野,而激活函数层通常对于感受野没有影响,当前层的步长并不影响当前层的感受野,感受野和padding没有关系,计算当前层的感受野的公式如下:
                                         R                                       F                                           i                                  +                                  1                                                 =                            R                                       F                               i                                      +                            (                            k                            −                            1                            )                            ×                                       S                               i                                            RF_{i+1}=RF_i+(k-1) \times S_i                     RFi+1​=RFi​+(k−1)×Si​
其中,                                   R                                   F                                       i                               +                               1                                                 RF_{i+1}                  RFi+1​体现当前层的感受野,                                   R                                   F                            i                                       RF_i                  RFi​体现上一层的感受野,k体现卷积核的巨细,例如                                   3                         ∗                         3                              3*3                  3∗3的卷积核,则                                   k                         =                         3                              k=3                  k=3,                                             S                            i                                       S_i                  Si​体现之前全部层的步长的乘积(不包括本层),公式如下:
                                                    S                               i                                      =                                       ∏                                           i                                  =                                  1                                          i                                      S                            t                            r                            i                            d                                       e                               i                                            S_i=\prod_{i=1}^i Stride_i                     Si​=i=1∏i​Stridei​
感受野:卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域巨细;(如果每个特征受到原始图像的                                   3                         ∗                         3                              3*3                  3∗3区域内的影响,则感受野为2)。
3、特征图巨细计算

输入                                   W                         ×                         H                              W \times H                  W×H,卷积核巨细:k,Padding巨细:p,步长巨细:S
输出:
                                                    W                               o                                      =                            (                            W                            −                            k                            +                            2                            ∗                            p                            )                            /                            S                            +                            1                                  W_o=(W-k+2*p)/S+1                     Wo​=(W−k+2∗p)/S+1                                                   H                               o                                      =                            (                            H                            −                            k                            +                            2                            ∗                            p                            )                            /                            S                            +                            1                                  H_o=(H-k+2*p)/S+1                     Ho​=(H−k+2∗p)/S+1
4、Resnet

在深度神经网络中,当网络很深时,除了增加计算资源消耗以及模型过拟合问题外,还会出现梯度消失/爆炸问题,导致网络参数无法更新。
而且深层的网络还有一个问题,假设我们的初始设定网络是M层,而实在最优化模型对应的层数大概是K层,那么多出来的(M-K)层网络结构,不但不会提升模型的表达能力,反而会使得模型的效果变差(体现为Loss先下降并趋于稳定值,然后再次上升),这就产生了网络退化问题。
网络的一层可以看做                                   y                         =                         H                         (                         x                         )                              y=H(x)                  y=H(x)
                                         H                            (                            x                            )                            =                            F                            (                            x                            )                            +                            x                                     F                            (                            x                            )                            =                            H                            (                            x                            )                            −                            x                                  H(x) = F(x)+x\quad F(x)=H(x)-x                     H(x)=F(x)+xF(x)=H(x)−x
其中,                                   F                         (                         x                         )                              F(x)                  F(x)是残差。

5、空洞卷积和1*1卷积

空洞卷积(扩张卷积)
与正常的卷积不同的是,空洞卷积引入了一个称为“扩张率(dilation rate)”的超参数,该参数界说了卷积核处置惩罚数据时各值的间距。扩张率中文也叫空洞数(Hole Size),空洞卷积可以增加感受野,同时可以不改变图像输出特征图的尺寸(分辨率,resolution)。


1*1卷积

6、VIT


7、图像质量评价指标

MSE(Mean Squared Error)均方偏差
                                         M                            S                            E                            =                                                                ∑                                                   i                                        =                                        0                                                  m                                                           ∑                                                   j                                        =                                        0                                                  n                                                                         (                                        I                                        (                                        i                                        ,                                        j                                        )                                        −                                        K                                        (                                        i                                        ,                                        j                                        )                                        )                                                  2                                                                  m                                  ∗                                  n                                                       MSE=\frac{\sum_{i=0}^m\sum_{j=0}^n{(I(i,j)-K(i,j))}^2}{m*n}                     MSE=m∗n∑i=0m​∑j=0n​(I(i,j)−K(i,j))2​
即两张图像对应像素点数的差的平方求平均。
PSNR(Peak Signal-to-Noise Ratio)峰值信噪比(                                        ↑                                  \uparrow                     ↑)
PSNR衡量对应像素的相近水平
                                         P                            S                            N                            R                            =                            10                            ⋅                            l                            o                                       g                               10                                      (                                                   M                                  A                                               X                                     I                                     2                                                                  M                                  S                                  E                                                 )                            =                            20                            ⋅                            (                                                   M                                  A                                               X                                     I                                                                  M                                  S                                  E                                                 )                                  PSNR=10\cdot log_{10}(\frac{MAX_I^2}{MSE})=20\cdot(\frac{MAX_I}{MSE})                     PSNR=10⋅log10​(MSEMAXI2​​)=20⋅(MSEMAXI​​)
MSE即上图的均方偏差,                                   M                         A                                   X                            I                                       MAX_I                  MAXI​为图像中像素颜色可以取到的最大数值(即255)。
SSIM(Structural Similarity Index)结构性相似指标(                                        ↑                                  \uparrow                     ↑)
评价一张图片的亮度(luminance)、对比度(contrast)、结构(structure)
                                         S                            S                            I                            M                            (                            x                            ,                            y                            )                            =                                                   (                                  2                                               μ                                     x                                                           μ                                     y                                              +                                               c                                     1                                              )                                  (                                  2                                               σ                                                   x                                        y                                                           +                                               c                                     2                                              )                                                      (                                               μ                                     x                                     2                                              +                                               μ                                     y                                     2                                              +                                               c                                     1                                              )                                  (                                               σ                                     x                                     2                                              +                                               σ                                     y                                     2                                              +                                               c                                     2                                              )                                                       SSIM(x,y)=\frac{(2\mu_x\mu_y+c_1)(2\sigma_{xy}+c_2)}{(\mu_x^2+\mu_y^2+c_1)(\sigma_x^2+\sigma_y^2+c_2)}                     SSIM(x,y)=(μx2​+μy2​+c1​)(σx2​+σy2​+c2​)(2μx​μy​+c1​)(2σxy​+c2​)​
同时,SSIM只是计算一个小窗口内图像的亮度、对比度、结构的值的相似水平,通过像素滑窗求平均,可以得到整幅图像的MSSIM。
                                         M                            S                            S                            I                            M                            (                            X                            ,                            Y                            )                            =                                       1                               M                                                 ∑                                           j                                  =                                  1                                          M                                      S                            S                            I                            M                            (                                       x                               j                                      ,                                       y                               j                                      )                                  MSSIM(X,Y)=\frac{1}{M}\sum_{j=1}^MSSIM(x_j,y_j)                     MSSIM(X,Y)=M1​j=1∑M​SSIM(xj​,yj​)
LPIPS(Learned Perceptual Image Patch Similarity)感知图像块相似性(                                        ↓                                  \downarrow                     ↓)
其主要思想是用CNN网络学到一些深层特征,再求得两张图片的深层特征之间的距离。
过了网络之后得到不同层的特征图                                   y                              y                  y,将这些特征图在通道维度进行单元归一化,然后对特征维的不同通道乘上一个缩放因子,再将两张图的特征做                                   l                         2                              l2                  l2丧失,末了不同层的特征求得丧失求平均得到一个距离。
                                         d                            (                            x                            ,                                       x                               0                                      )                            =                                       ∑                               l                                                 1                                                        H                                     l                                                           W                                     l                                                             ∣                            ∣                                       w                               l                                      θ                            (                                                   y                                  ^                                                      h                                  w                                          l                                      −                                                   y                                  ^                                                      o                                  h                                  w                                          l                                      ∣                                       ∣                               2                               2                                            d(x,x_0)=\sum_l\frac{1}{H_lW_l}||w_l\theta(\widehat{y}_{hw}^l-\widehat{y}_{ohw}^l||_2^2                     d(x,x0​)=l∑​Hl​Wl​1​∣∣wl​θ(y              ​hwl​−y              ​ohwl​∣∣22​
FID(Fréchet Inception Distance)(                                        ↓                                  \downarrow                     ↓)
基于两个图像分布之间的特征向量空间的Fréchet距离,测量生成图像与真实图像分布之间的差异。
                                         F                            I                            D                            (                            P                            ,                            G                            )                            =                            ∣                            ∣                                       μ                               P                                      −                                       μ                               G                                      ∣                                       ∣                               2                                      +                            T                            r                            (                                       ∑                               P                                      +                                       ∑                               G                                      −                            2                            ∗                                                                ∑                                     P                                                           ∑                                     G                                                             )                                  FID(P,G)=||\mu_P-\mu_G||^2+Tr(\sum_P+\sum_G-2*\sqrt{\sum _P\sum_G})                     FID(P,G)=∣∣μP​−μG​∣∣2+Tr(P∑​+G∑​−2∗P∑​G∑​             ​)
NIQE(Natural Image Quality Evaluator)自然图像质量评估器(                                        ↓                                  \downarrow                     ↓)
无参考图像质量指标

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 qidao123.com技术社区-IT企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.4