【AI算法岗口试八股面经【超全整理】——CV】

打印 上一主题 下一主题

主题 1881|帖子 1881|积分 5643

AI算法岗口试八股面经【超全整理】


  • 概率论【AI算法岗口试八股面经【超全整理】——概率论】
  • 信息论【AI算法岗口试八股面经【超全整理】——信息论】
  • 机器学习【AI算法岗口试八股面经【超全整理】——机器学习】
  • 深度学习【AI算法岗口试八股面经【超全整理】——深度学习】
  • NLP【AI算法岗口试八股面经【超全整理】——NLP】
  • CV【AI算法岗口试八股面经【超全整理】——CV】
整理好的PDF版本在资源上,https://download.csdn.net/download/weixin_46570668/90479945

  
1、图像处置惩罚中一样平常用最大池化而不用平均池化

池化的主要目标:


  • 保持主要特征稳定的同时淘汰了参数
  • 保持平移、旋转、尺度稳定性,增强了神经网络的鲁棒性
  • 池化操纵也可以在肯定水平上控制过拟合,通过减小特征图的尺寸,池化可以减小模型中的参数数目,并低落模型的复杂度。这有助于防止模型过分拟合练习数据,进步模型的泛化能力
最大池化更能捕捉图像上的变化、梯度的变化,带来更大的局部信息差异化,从而更好地捕捉边沿、纹理等特征。平均池化会淡化或错过特征是否存在的信息。
2、计算感受野

卷积层和池化层都会影响感受野,而激活函数层通常对于感受野没有影响,当前层的步长并不影响当前层的感受野,感受野和padding没有关系,计算当前层的感受野的公式如下:
                                         R                                       F                                           i                                  +                                  1                                                 =                            R                                       F                               i                                      +                            (                            k                            −                            1                            )                            ×                                       S                               i                                            RF_{i+1}=RF_i+(k-1) \times S_i                     RFi+1​=RFi​+(k−1)×Si​
其中,                                   R                                   F                                       i                               +                               1                                                 RF_{i+1}                  RFi+1​体现当前层的感受野,                                   R                                   F                            i                                       RF_i                  RFi​体现上一层的感受野,k体现卷积核的巨细,例如                                   3                         ∗                         3                              3*3                  3∗3的卷积核,则                                   k                         =                         3                              k=3                  k=3,                                             S                            i                                       S_i                  Si​体现之前全部层的步长的乘积(不包括本层),公式如下:
                                                    S                               i                                      =                                       ∏                                           i                                  =                                  1                                          i                                      S                            t                            r                            i                            d                                       e                               i                                            S_i=\prod_{i=1}^i Stride_i                     Si​=i=1∏i​Stridei​
感受野:卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域巨细;(如果每个特征受到原始图像的                                   3                         ∗                         3                              3*3                  3∗3区域内的影响,则感受野为2)。
3、特征图巨细计算

输入                                   W                         ×                         H                              W \times H                  W×H,卷积核巨细:k,Padding巨细:p,步长巨细:S
输出:
                                                    W                               o                                      =                            (                            W                            −                            k                            +                            2                            ∗                            p                            )                            /                            S                            +                            1                                  W_o=(W-k+2*p)/S+1                     Wo​=(W−k+2∗p)/S+1                                                   H                               o                                      =                            (                            H                            −                            k                            +                            2                            ∗                            p                            )                            /                            S                            +                            1                                  H_o=(H-k+2*p)/S+1                     Ho​=(H−k+2∗p)/S+1
4、Resnet

在深度神经网络中,当网络很深时,除了增加计算资源消耗以及模型过拟合问题外,还会出现梯度消失/爆炸问题,导致网络参数无法更新。
而且深层的网络还有一个问题,假设我们的初始设定网络是M层,而实在最优化模型对应的层数大概是K层,那么多出来的(M-K)层网络结构,不但不会提升模型的表达能力,反而会使得模型的效果变差(体现为Loss先下降并趋于稳定值,然后再次上升),这就产生了网络退化问题。
网络的一层可以看做                                   y                         =                         H                         (                         x                         )                              y=H(x)                  y=H(x)
                                         H                            (                            x                            )                            =                            F                            (                            x                            )                            +                            x                                     F                            (                            x                            )                            =                            H                            (                            x                            )                            −                            x                                  H(x) = F(x)+x\quad F(x)=H(x)-x                     H(x)=F(x)+xF(x)=H(x)−x
其中,                                   F                         (                         x                         )                              F(x)                  F(x)是残差。


  • 残差连接可以防止梯度消失
  • 办理网络退化。假设某层是冗余的,在引入ResNet之前,我们想让该层学习到的参数能够满足                                        H                            (                            x                            )                            =                            x                                  H(x)=x                     H(x)=x,即输入是x,颠末该冗余层之后,输出仍为x。但是要想学习                                        H                            (                            x                            )                            =                            x                                  H(x)=x                     H(x)=x恒等映射时的参数是很难的。ResNet让                                        H                            (                            x                            )                            =                            R                            e                            L                            U                            (                            F                            (                            x                            )                            +                            x                            )                                  H(x)=ReLU(F(x)+x)                     H(x)=ReLU(F(x)+x);我们发现,要想让该冗余层能够恒等映射,只必要学习                                        F                            (                            x                            )                            =                            0                                  F(x)=0                     F(x)=0。学习                                        F                            (                            x                            )                            =                            0                                  F(x)=0                     F(x)=0比                                        H                            (                            x                            )                            =                            x                                  H(x)=x                     H(x)=x要简朴,因为一样平常每层中的参数初始化方向于0,而且ReLU能够将负数激活为0,这样能够更快收敛。
5、空洞卷积和1*1卷积

空洞卷积(扩张卷积)
与正常的卷积不同的是,空洞卷积引入了一个称为“扩张率(dilation rate)”的超参数,该参数界说了卷积核处置惩罚数据时各值的间距。扩张率中文也叫空洞数(Hole Size),空洞卷积可以增加感受野,同时可以不改变图像输出特征图的尺寸(分辨率,resolution)。



  • 扩大感受野
  • 捕获多尺度上下文信息
1*1卷积


  • 对通道数实现升维/降维
  • 实现跨通道的信息交互与融合
6、VIT



  • 将图像转换为Patch序列。 假设有一张图像                                        x                            ∈                                       R                                           H                                  ∗                                  W                                  ∗                                  C                                                       x \in R^{H*W*C}                     x∈RH∗W∗C,Patch巨细为p,那么可以创建N个图像Patches;
  • 将Patches铺平。 原论文作者选用patch巨细为16,那么一个Patch的shape为(3,16,16),维度为3,将它铺平之后巨细为                                        16                            ×                            16                            ×                            3                            =                            768                                  16\times 16\times 3=768                     16×16×3=768。此时可以使用一个线性映射层,将Patch的维度映射到我们指定的embedding的维度,这样就和NLP的词向量类似了。
  • 添加Position embedding。 与CNNs不同,此时模型并不知道序列数据中的patches的位置信息。所以这些patches必须先追加一个位置信息,也就是图中的带数字的向量。
  • 添加class token。 在输入到Transformer Encoder之前,还必要添加一个特殊的class token,这一点主要是借鉴了BERT模型。添加这个class token的目标是因为VIT模型将这个class token在Transformer Encoder的输出当作是模型对输入图片的编码特征,用于后续输入MLP模块中与图片label进行Loss计算。
  • 输入Transformer Encoder。
7、图像质量评价指标

MSE(Mean Squared Error)均方偏差
                                         M                            S                            E                            =                                                                ∑                                                   i                                        =                                        0                                                  m                                                           ∑                                                   j                                        =                                        0                                                  n                                                                         (                                        I                                        (                                        i                                        ,                                        j                                        )                                        −                                        K                                        (                                        i                                        ,                                        j                                        )                                        )                                                  2                                                                  m                                  ∗                                  n                                                       MSE=\frac{\sum_{i=0}^m\sum_{j=0}^n{(I(i,j)-K(i,j))}^2}{m*n}                     MSE=m∗n∑i=0m​∑j=0n​(I(i,j)−K(i,j))2​
即两张图像对应像素点数的差的平方求平均。
PSNR(Peak Signal-to-Noise Ratio)峰值信噪比(                                        ↑                                  \uparrow                     ↑)
PSNR衡量对应像素的相近水平
                                         P                            S                            N                            R                            =                            10                            ⋅                            l                            o                                       g                               10                                      (                                                   M                                  A                                               X                                     I                                     2                                                                  M                                  S                                  E                                                 )                            =                            20                            ⋅                            (                                                   M                                  A                                               X                                     I                                                                  M                                  S                                  E                                                 )                                  PSNR=10\cdot log_{10}(\frac{MAX_I^2}{MSE})=20\cdot(\frac{MAX_I}{MSE})                     PSNR=10⋅log10​(MSEMAXI2​​)=20⋅(MSEMAXI​​)
MSE即上图的均方偏差,                                   M                         A                                   X                            I                                       MAX_I                  MAXI​为图像中像素颜色可以取到的最大数值(即255)。
SSIM(Structural Similarity Index)结构性相似指标(                                        ↑                                  \uparrow                     ↑)
评价一张图片的亮度(luminance)、对比度(contrast)、结构(structure)
                                         S                            S                            I                            M                            (                            x                            ,                            y                            )                            =                                                   (                                  2                                               μ                                     x                                                           μ                                     y                                              +                                               c                                     1                                              )                                  (                                  2                                               σ                                                   x                                        y                                                           +                                               c                                     2                                              )                                                      (                                               μ                                     x                                     2                                              +                                               μ                                     y                                     2                                              +                                               c                                     1                                              )                                  (                                               σ                                     x                                     2                                              +                                               σ                                     y                                     2                                              +                                               c                                     2                                              )                                                       SSIM(x,y)=\frac{(2\mu_x\mu_y+c_1)(2\sigma_{xy}+c_2)}{(\mu_x^2+\mu_y^2+c_1)(\sigma_x^2+\sigma_y^2+c_2)}                     SSIM(x,y)=(μx2​+μy2​+c1​)(σx2​+σy2​+c2​)(2μx​μy​+c1​)(2σxy​+c2​)​
同时,SSIM只是计算一个小窗口内图像的亮度、对比度、结构的值的相似水平,通过像素滑窗求平均,可以得到整幅图像的MSSIM。
                                         M                            S                            S                            I                            M                            (                            X                            ,                            Y                            )                            =                                       1                               M                                                 ∑                                           j                                  =                                  1                                          M                                      S                            S                            I                            M                            (                                       x                               j                                      ,                                       y                               j                                      )                                  MSSIM(X,Y)=\frac{1}{M}\sum_{j=1}^MSSIM(x_j,y_j)                     MSSIM(X,Y)=M1​j=1∑M​SSIM(xj​,yj​)
LPIPS(Learned Perceptual Image Patch Similarity)感知图像块相似性(                                        ↓                                  \downarrow                     ↓)
其主要思想是用CNN网络学到一些深层特征,再求得两张图片的深层特征之间的距离。
过了网络之后得到不同层的特征图                                   y                              y                  y,将这些特征图在通道维度进行单元归一化,然后对特征维的不同通道乘上一个缩放因子,再将两张图的特征做                                   l                         2                              l2                  l2丧失,末了不同层的特征求得丧失求平均得到一个距离。
                                         d                            (                            x                            ,                                       x                               0                                      )                            =                                       ∑                               l                                                 1                                                        H                                     l                                                           W                                     l                                                             ∣                            ∣                                       w                               l                                      θ                            (                                                   y                                  ^                                                      h                                  w                                          l                                      −                                                   y                                  ^                                                      o                                  h                                  w                                          l                                      ∣                                       ∣                               2                               2                                            d(x,x_0)=\sum_l\frac{1}{H_lW_l}||w_l\theta(\widehat{y}_{hw}^l-\widehat{y}_{ohw}^l||_2^2                     d(x,x0​)=l∑​Hl​Wl​1​∣∣wl​θ(y              ​hwl​−y              ​ohwl​∣∣22​
FID(Fréchet Inception Distance)(                                        ↓                                  \downarrow                     ↓)
基于两个图像分布之间的特征向量空间的Fréchet距离,测量生成图像与真实图像分布之间的差异。
                                         F                            I                            D                            (                            P                            ,                            G                            )                            =                            ∣                            ∣                                       μ                               P                                      −                                       μ                               G                                      ∣                                       ∣                               2                                      +                            T                            r                            (                                       ∑                               P                                      +                                       ∑                               G                                      −                            2                            ∗                                                                ∑                                     P                                                           ∑                                     G                                                             )                                  FID(P,G)=||\mu_P-\mu_G||^2+Tr(\sum_P+\sum_G-2*\sqrt{\sum _P\sum_G})                     FID(P,G)=∣∣μP​−μG​∣∣2+Tr(P∑​+G∑​−2∗P∑​G∑​             ​)
NIQE(Natural Image Quality Evaluator)自然图像质量评估器(                                        ↓                                  \downarrow                     ↓)
无参考图像质量指标

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

曂沅仴駦

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表