【深度学习】各种卷积—卷积、反卷积、空洞卷积、可分离卷积、分组卷积
在全毗连神经网络中,每个神经元都和上一层的所有神经元相互毗连,这会导致网络的参数量非常大,难以实现复杂数据的处置处罚。为了改善这种情况,卷积神经网络应运而生。一、卷积
在信号处置处罚中,卷积被定义为一个函数颠末翻转和移动后与另一个函数的乘积的积分。
https://i-blog.csdnimg.cn/direct/25909ca31bb34d418c04f811ec061ccf.png
那卷积具体卷了什么呢?我们用f函数表示进食,g函数表示消化。如果我们不思量消化的话,如果想求14点的时候我们胃内里剩什么,只需要将f(t)在0点到14点求积分。但现在问题是,我们的胃是不停消化的。
https://i-blog.csdnimg.cn/direct/3581b93290f1461da18de5cb56e4cae0.png
假如,我们在12点的时候吃进去一碗米饭,而在14点的时候消化的已经剩一半了,这时候我们就需要用到消化函数g(t)。
https://i-blog.csdnimg.cn/direct/91442e3925694bda9a355513ab8276c5.png
g(t)代表消化曲线,最大值为1,在12点吃进去一碗米饭,在14点米饭还剩 f (12)·g (14 - 12),即 f (x)·g (t - x) 。那么14点之前吃进去的食品就可以举行求积分 https://latex.csdn.net/eq?%5Cint_%7B0%7D%5E%7B14%7Df%28x%29g%2814-x%29dx.
https://i-blog.csdnimg.cn/direct/e25f70328eaf4c9288795a9d367c16de.png
从上述来看,我们可以把卷积理解为,一个系统的输入不稳定(在某时刻吃的东西多少不肯定)、输出稳定(衰减/变革都符合g(t)函数),用卷积求系统存量。
2D卷积
在图像卷积中,过滤函数是不颠末翻转的。卷积便是看许多像素点对某一个像素点怎样产生的影响。2D卷积指的是在卷积操纵过程中,卷积核只有两个维度——宽和高。卷积核与输入矩阵中对齐的地域,如下图灰色框所示。在对齐的地域里,输入矩阵与卷积核对应位置的元素值相乘,所有乘积再相加,得到一个标量值,为输出地域(0,0)位置的数值。接着卷积核向右平移,平移的间隔由步长stride决定(stride为1,则向右平移一步),重复以上盘算。
https://i-blog.csdnimg.cn/direct/d8c9c208b9ca40e698ea1c0a01ec7726.png
实行卷积的目的是从输入中提取有用的特征。在图像处置处罚中,实行卷积操纵有不同的过滤函数可供选择,每一种都有助于从输入图像中提取不同的方面或特征,如程度/垂直/对角边等。类似地,卷积神经网络通过卷积在练习期间使用主动学习权重的函数来提取特征。所有这些提取出来的特征,之后会被组合在一起做出决策。同时,卷积操纵还具有权重共享(weights sharing)宁静移稳定性(translation invariant),可以思量像素空间的关系。
一个输入图像在连续颠末几次卷积操纵之后,输出的图像就变得很小了。当输出尺寸变成1x1的时候,就无法举行卷积运算了,这样的话我们难以构建较深的神经网络。何况,在某些场景当中,比方图像分割,我们并不渴望图像每次在颠末特征提取之后都变小。别的,卷积运算并没有充分利用边沿处的信息,边沿处的像素点只会参与一次卷积运算,影响一个输出结果;但中心地域的像素点会参与多次卷积运算,影响多个输出结果。而添补操纵padding就会办理这些问题,当padding=1时,图像周围会添补1个像素,比方一个5x5的图像颠末添补后会变成7x7的图像。
卷积盘算后的图像输出尺寸巨细盘算公式如下:
https://i-blog.csdnimg.cn/direct/020eaf96e5ac4eafaeb878a41a6de039.png
多通道卷积(空间卷积)
在2D卷积的例子中,输入时单通道的二维数据。而对于实际的图片,输入数据通常是多通道的,比如RGB三通道的。多通道的卷积操纵与单通道的类似,只是在构造卷积核时需要留意卷积核的通道个数要与输入数据通道数相同。而对于卷积层而言,也是云云,一个卷积层通常也是多个通道构成的,每个通道形貌一个方面的特征。
https://i-blog.csdnimg.cn/direct/afc9263ee42d456fbd2f0d4afb012cf5.png
天生一个输出通道,就需要将每一个卷积核应用到前一层的输出通道上,这是一个卷积核级别的操纵过程。对所有的卷积核都重复这个过程以天生多通道,之后,这些通道组合在一起共同形成一个单输出通道。设输入层是一个 5 x 5 x 3 矩阵,它有 3 个通道。过滤器则是一个 3 x 3 x 3 矩阵。首先,过滤器中的每个卷积核都应用到输入层的 3 个通道,实行 3 次卷积后得到了尺寸为 3 x 3 的 3 个通道。如下图所示:
https://i-blog.csdnimg.cn/direct/9297dce6ba884588abde2c70bc4f58c4.png
之后,这 3 个通道都合并到一起(元素级别的加法)构成了一个巨细为 3 x 3 x 1 的单通道。这个通道是输入层(5 x 5 x 3 矩阵)使用了过滤器(3 x 3 x 3 矩阵)后得到的结果。
https://i-blog.csdnimg.cn/direct/10a422303f644b87b2423ca03cde3a30.png
同样,我们也可以将这个过程视作将一个 3D 过滤器矩阵滑动通过输入层,这个输入层和过滤器的深度都是相同的,即通道数=卷积核数。这个 3D 过滤器仅沿着 2 个方向(图像的高和宽)移动,这也是为什么 3D 过滤器即使通常用于处置处罚 3D 体积数据,但这样的操纵还是被称为 2D 卷积。假设,输入图像和卷积核的通道数为3,卷积核尺寸为3x3x3(宽x高x通道数),这时候将一个3D过滤器矩阵对图像沿着高和宽作卷积,通道数为1的卷积核是举行9个像素点的盘算,而通道数为3的卷积核是举行27个像素点的盘算。
https://i-blog.csdnimg.cn/direct/0b013e2c4b0046439c033f4568bfe6b9.png
https://i-blog.csdnimg.cn/direct/ae9e9f84a7004e83bc2fb5ee60aa990c.png
多卷积核卷积
在实际神经网络中,每一层都会有多个卷积核参与运算。每个卷积核分别于输入卷积得到一个单通道的输出,最后多个单通道的输出拼在一起得到多通道输出。
https://i-blog.csdnimg.cn/direct/548f57a138e1462fbea24fcab9501f2a.png
单个卷积核只能提取单一特征,要想利用卷积核提取更多的特征,需要增长卷积核数量。r如果需要提取100个特征,卷积层需要100个卷积核,假设卷积核巨细为4,则共需要4*100个参数。
https://i-blog.csdnimg.cn/direct/1b02df21356c4d9ebff4f7e8e53a01c6.png
https://i-blog.csdnimg.cn/direct/a02909d13c924a17b37196a14cfb8bf0.png
怎样举行多通道图的多核卷积呢? 对多通道图举行一个核一个核地卷积,最后天生n个特征图,将这些特征图拼接在一起终极可以得到2x2xn的特征图。
https://i-blog.csdnimg.cn/direct/dfb5abccdb0f4894a921aac954890e58.png
3D卷积
上一节中最后一张图固然实现了空间卷积,但是本质上它还是2D卷积。而在 3D 卷积与2D卷积相比,多了一个时间的维度。而且3D卷积的过滤器深度要比输入层深度小,即卷积核巨细<通道巨细。这样做的结果是,3D 过滤器可以沿着所有 3 个方向移动,即高、宽及图像通道。
每个位置颠末元素级别的乘法和算法都得出一个数值。由于过滤器滑动通过 3D 空间,输出的数值同样也以 3D 空间的形式出现,终极输出一个 3D 数据。如下图所示:
https://i-blog.csdnimg.cn/direct/fa33b5fe981e46d58df4806ade519ac0.png
1x1卷积
1x1卷积核通常会拿来对输入数据的通道做约简,每个1x1卷积核想当于在输入数据的通道上做一个降维(颠末一个神经元个数为1的全毗连层),从而相当于大幅度降低了特征图的数量,但不影响特征图的结构。1x1卷积表面上似乎只是feature map每个值乘了一个数,但实际上不仅仅云云,由于会颠末激活层,所以实际上是举行了非线性映射,其次就是可以改变feature 的channel数目。
https://i-blog.csdnimg.cn/direct/cd8d2e805fa446cbab84bb8c08330d9c.png
颠末巨细为 1 x 1 x D 的过滤器的 1 x 1 卷积,输出通道的维度为 H x W x 1。如果我们实行 N 次这样的 1 x 1 卷积,然后将这些结果结合起来,我们能得到一个维度为 H x W x N 的输出层。在实行盘算昂贵的 3 x 3 卷积和 5 x 5 卷积前,通常会使用 1 x 1 卷积来减少盘算量。别的,它们也可以利用调整后的线性激活函数来实现双重用途。
二、 反卷积(转置卷积 Transposed Convolutions)
卷积不会增大输入的高和宽,通常要么稳定、要么减半。但是在语义分割这种任务上,仅仅使用卷积无法举行像素级的输出,这时候就可以用到转置卷积来增大输入高和宽。反卷积是卷积的逆操纵。
https://i-blog.csdnimg.cn/direct/1bfdeab9391b4c40947939f0689996f1.png
在反卷积举行的时候,也需要滑动操纵。将输入图像上的0、1、2、3分别与卷积核举行相乘操纵,得到结果后在与输出图像相同尺寸的框图上举行滑动,终极将这些结果举行相加。
https://i-blog.csdnimg.cn/direct/c5358d37de1e4854853620200751ec11.png
为什么反卷积又叫做转置卷积呢?对于一个卷积操纵https://latex.csdn.net/eq?Y%3DX*W,可以构造一个V使得卷积等价于矩阵乘法https://latex.csdn.net/eq?Y%5E%7B%27%7D%3DVX%5E%7B%27%7D,此中https://latex.csdn.net/eq?Y%5E%7B%27%7Dhttps://latex.csdn.net/eq?X%5E%7B%27%7D是https://latex.csdn.net/eq?Y%20X对应的向量版本。转置卷积则是将卷积操纵https://latex.csdn.net/eq?Y%3DX*W等价于https://latex.csdn.net/eq?Y%5E%7B%27%7D%3DV%5E%7BT%7DX%5E%7B%27%7D,如果https://latex.csdn.net/eq?Y%5E%7B%27%7D的尺寸为1xm,https://latex.csdn.net/eq?X%5E%7B%27%7D的尺寸为1xn,则https://latex.csdn.net/eq?V的尺寸为mxn。如果卷积将输入从https://latex.csdn.net/eq?%28h%2Cw%29变成了https://latex.csdn.net/eq?%28h%5E%7B%27%7D%2Cw%5E%7B%27%7D%29,同样超参数的转置卷积则从https://latex.csdn.net/eq?%28h%5E%7B%27%7D%2Cw%5E%7B%27%7D%29变成了https://latex.csdn.net/eq?%28h%2Cw%29,卷积一般是做下采样,转置卷积通常用作上采样。需要留意的是,固然转置卷积可以增长特征图的空间尺寸,但是它不等同于传统意义上的上采样或者插值,因为它引入了非线性,转置卷积层在增长特征图尺寸的同时,通过学习卷积核的权重,能够保留或增长信息内容。
转置卷积也是一种卷积。当添补为0,步幅为1时,将输入添补k-1(k是核窗口),将核矩阵上下、左右翻转,然后做正常卷积(添补0、步幅1),可以得到结果等价于转置卷积。
https://i-blog.csdnimg.cn/direct/c343dac674944c7b9e56f1b56d318ada.png
当添补为p,步幅为1时,将输入添补k-p-1(k是核窗口),将核矩阵上下、左右翻转,然后做正常卷积(添补0、步幅1),可以得到结果等价于转置卷积。
https://i-blog.csdnimg.cn/direct/5ff9ffbf615e497aa4b2b6f8d04f7ee9.png
当添补为p,步幅为s时,在行和列之间插入s-1行或列,将输入添补k-p-1(k是核窗口),将核矩阵上下、左右翻转,然后做正常卷积(添补0、步幅1),可以得到结果等价于转置卷积。
https://i-blog.csdnimg.cn/direct/d4e95cce11a9435b9de0310fb706f258.png
转置卷积输出特征图尺寸盘算公式如下:
https://i-blog.csdnimg.cn/direct/9f2afef07e9344398c7cbaa534e0db1e.png
三、 分组卷积(Group convolution)
Group convolution 分组卷积,最早在AlexNet中出现,由于当时的硬件资源有限,练习AlexNet时卷积操纵不能全部放在同一个GPU处置处罚,因此作者把feature maps分给多个GPU分别举行处置处罚,最后把多个GPU的结果举行融合。
在传统的 2D 卷积中,通过应用 128 个过滤器(每个过滤器的巨细为 3 x 3 x 3),巨细为 7 x 7 x 3 的输入层被转换为巨细为 5 x 5 x 128 的输出层。针对通用情况,可概括为通过应用 Dout 个卷积核(每个卷积核的巨细为 h x w x Din),可将巨细为 Hin x Win x Din 的输入层转换为巨细为 Hout x Wout x Dout 的输出层。
https://i-blog.csdnimg.cn/direct/1621c8f0546e42569a5e894e86468f79.png
而在分组卷积中,过滤器被拆分为不同的组,每一个组都负责具有肯定深度的传统 2D 卷积的工作。一个过滤器被拆分为 2 个过滤器组的分组卷积。在每个过滤器组中,其深度仅为名义上的 2D 卷积的一半(Din / 2),而每个过滤器组都包含 Dout /2 个过滤器。第一个过滤器组(红色)对输入层的前半部门做卷积([:, :, 0:Din/2]),第二个过滤器组(蓝色)对输入层的后半部门做卷积([:, :, Din/2:Din])。终极,每个过滤器组都输出了 Dout/2 个通道。整体上,两个组输出的通道数为 2 x Dout/2 = Dout。之后,我们再将这些通道堆叠到输出层中,输出层就有了 Dout 个通道。
https://i-blog.csdnimg.cn/direct/2d5c7e7219654fc294da5ae9ba4ab188.png
四、扩张卷积(空洞卷积 Dilated Convolutions)
空洞卷积又叫扩张卷积,是一种特殊的卷积运算。与标准卷积不同的是,在卷积核尺寸、步长、添补之外,又引入另一个卷积层的参数——扩张率(膨胀率)。膨胀率定义了内核中值之间的间距。扩张速率为2的3x3内核将具有与5x5内核相同的视野,而只使用9个参数。 使用5x5内核并删除每个间隔的行和列,如下图所示:
https://i-blog.csdnimg.cn/direct/3d7c4edf974c4a9dac9e28be2aed4a49.png
为什么要增长采样间隔呢?空洞卷积最初被提出时,是为了办理图像分割中一些特定的问题,特殊是语义分割。图像分割做的是像素级的猜测,模型需要精确地猜测出图像中地每个像素所属的类别,这就需要模型具有较大的感受野,以便捕捉到图像中上下文信息。同时,图像分割需要保持高分辨率的输出,传统的神经网络需要颠末卷积层和池化层降低图像分辨率,然后再颠末上采样操纵还原输入尺寸,这个过程增大了感受野但也会导致细节丢失。空洞卷积便可缓解这个问题,增大感受野的同时,保持特征图的尺寸稳定,通过膨胀率卷积核可以在不增长参数数量和盘算量的条件下覆盖更大的感受野,这样网络就可以捕捉到图像中的长间隔依靠关系,同时又可以保持较高的空间分辨率。
直观上,空洞卷积通过在卷积核部门之间插入空间让卷积核“膨胀”。这个增长的参数 (空洞率)表明了我们想要将卷积核放宽到多大。当 膨胀率为1,2,4 时的卷积核巨细,此中当膨胀率为1时,空洞卷积就变成了一个标准的卷积。
https://i-blog.csdnimg.cn/direct/9c5f82cd2eb446c8a66ddd251e2e455a.png
在图像中,3 x 3 的红点表明颠末卷积后的输出图像的像素是 3 x 3。固然三次空洞卷积都得出了相同维度的输出图像,但是模型观察到的感受野是不同的。膨胀率为1时,感受野为 3 x 3;膨胀率为2时,感受野是 7 x 7;膨胀率为3时,感受野增至 15x15。伴随这些操纵的参数数量本质上是相同的,不需要增长参数运算本钱就能观察大的感受野。因此,空洞卷积常被用以低本钱地增长输出单位上的感受野,同时还不需要增长卷积核巨细,当多个空洞卷积一个接一个堆叠在一起时,这样是有用的。
五、可分离卷积
空间可分离卷积(separable convolution)
空间可分离卷积就是再空间维度对卷积核举行拆分,将一个标准卷积核拆为一个个小卷积核,终极一个标准的卷积运算可以转换为多个顺序实行的卷积运算。
https://i-blog.csdnimg.cn/direct/dffd8d0131d8498c8efaa94969ee6fe0.png
比方,一个矩阵A可以拆分为B和C的外积。那么,用A作为卷积核对图像作卷积就等价于先用B作为卷积核对图像作卷积,然后再用C作为卷积核对图像作卷积。
https://i-blog.csdnimg.cn/direct/bee7aba7d77b494ea32681a04a17b628.png
https://i-blog.csdnimg.cn/direct/111340983b4e48c1b129f582990fd9f3.png
一般而言,在一个可分离卷积中,我们可以将内核操纵拆分成多个步骤。我们用y = conv(x,k)表示卷积,此中y是输出图像,x是输入图像,k是内核。这一步很简朴。接下来,我们假设k可以由下面这个等式盘算得出:k = k1.dot(k2)。这将使它成为一个可分离的卷积,因为我们可以通过对k1和k2做2个一维卷积来取得相同的结果,而不是用k做二维卷积。
https://i-blog.csdnimg.cn/direct/fb6acf9f51c34f58b0a7066e6014b3e7.png
以通常用于图像处置处罚的Sobel内核为例。你可以通过乘以向量和 .T获得相同的内核。在实行相同的操纵时,你只需要6个而不是9个参数。(如下所示,实在有点类似矩阵的分解,在线性系统的时候学过类似的)
https://i-blog.csdnimg.cn/direct/6f53469a5eac4c228d686e5d4c7d00ac.png
比起卷积,空间可分离卷积要实行的矩阵乘法运算也更少。假设我们现在在 m x m 卷积核、卷积步长=1 、添补=0 的 N x N 图像上做卷积。传统的卷积需要举行 (N-2) x (N-2) x m x m 次乘法运算,而空间可分离卷积只需要举行 N x (N-2) x m + (N-2) x (N-2) x m = (2N-2) x (N-2) x m 次乘法运算。空间可分离卷积与标准的卷积的盘算本钱之比为:
https://i-blog.csdnimg.cn/direct/7a2bc7619dc54f928b64bdf246998d14.png
深度可分离卷积(depthwise separable convolution)
深度可分离卷积和空间可分离卷积类似,也是将标准卷积运算拆分为多个卷积运算,深度维度指的是通道维度,深度可分离卷积是在通道维度上对标准卷积举行拆分处置处罚。一个巨细为 w x h x c的输入,颠末co个wk x hk x c的卷积核举行标准卷积运算,假设得到巨细为a x b x co的输出,整个运算过程中的运算量即是wk x hk x c x co。
https://i-blog.csdnimg.cn/direct/88139d069d914e068908ab6f12215bf5.png
同样巨细的输入和输出,换做深度可分离卷积是怎样做的呢?首先,对输入逐通道卷积,分别提取输入的每个通道上的特征。
https://i-blog.csdnimg.cn/direct/8b3fc0eee83a44ce95839fb7ad45bdc8.png
但此时,各通道上的特征是独立的,还没有得到融合因此需要逐点卷积,使用一个1 x 1 x c的卷积核对深度卷积得到的特征图举行卷积运算,可以得到一个1 x a x b的输出,此时的输出已经融合了c个通道的输出。
https://i-blog.csdnimg.cn/direct/5d7e72ac882a4d4ea2cb610fc0babe96.png
如果用co个1 x 1 x c的卷积核对特征图举行卷积运算,此时的输出特征图变为a x b x co。整个过程的参数量为 wk x hk x 1 x c + 1 x 1 x c x co, 大大缩减了盘算量和参数量。
https://i-blog.csdnimg.cn/direct/a8e69d03d437443ba330b92fe0e29237.png
参考资料:
7.5多通道多卷积核_哔哩哔哩_bilibilihttps://csdnimg.cn/release/blog_editor_html/release2.3.7/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1q34y1V7p4/?spm_id_from=333.337.search-card.all.click&vd_source=0dc0c2075537732f2b9a894b24578eed各种卷积层的理解(深度可分离卷积、分组卷积、扩张卷积、反卷积)_分层卷积-CSDN博客https://csdnimg.cn/release/blog_editor_html/release2.3.7/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=O83Ahttps://blog.csdn.net/gwplovekimi/article/details/89890510【深度学习 搞笑教程】22 卷积运算过程(单通道 多通道 多卷积核)| 草履虫都能听懂 零底子入门 | 连续更新_哔哩哔哩_bilibilihttps://csdnimg.cn/release/blog_editor_html/release2.3.7/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1de411H7s8/?spm_id_from=333.337.search-card.all.click&vd_source=0dc0c2075537732f2b9a894b24578eed卷积神经网络原理 - 12 - 有趣的1x1卷积核_哔哩哔哩_bilibilihttps://csdnimg.cn/release/blog_editor_html/release2.3.7/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV1Q5411d7hz?spm_id_from=333.788.videopod.sections&vd_source=0dc0c2075537732f2b9a894b24578eed【深度学习 搞笑教程】26 反卷积 空洞卷积 可分离卷积 | 草履虫都能听懂 零底子入门 | 连续更新_哔哩哔哩_bilibilihttps://csdnimg.cn/release/blog_editor_html/release2.3.7/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV19x4y1E7yA/?spm_id_from=333.337.search-card.all.click&vd_source=0dc0c2075537732f2b9a894b24578eed47 转置卷积【动手学深度学习v2】_哔哩哔哩_bilibilihttps://csdnimg.cn/release/blog_editor_html/release2.3.7/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=O83Ahttps://www.bilibili.com/video/BV17o4y1X7Jn/?spm_id_from=333.337.search-card.all.click&vd_source=0dc0c2075537732f2b9a894b24578eed
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]