【五一培训】Day 2

发表于 2025-5-3 14:51:57

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

注：
1. 本次培训内容的记录将以“Topic”的方式来呈现，用于记录个人对知识点的理解。
2. 由于培训期间，作者受限于一些现实条件，本文的排版及图片等相关优化，必要过一段时间才气完成。
3. 关于老板点评的一些思考
你也是一只老鸟了，可以有更深的体会。
  如何理解“更深的体会”，我觉得应该从以下四个方面入手：即 what，why，how，transfor，code。时候多问这五点，将每一个关键的五点搞清楚，其掌握程度就能有所保障。另外，对于今天的回答，提醒了我，更要在如下几个方面深入学习。
（1）对原理的追根溯源：越往深处做，扎实基础带来的优势就越大。由于最开始是直接从python入手，很多原理实际上并没有搞清楚（引用现成封装好的功能），多数是泛泛而谈。这一点在今天的回答中也有体现，这是不应该的。
（2）落实到本身手头的工作中：将概念性的知识，理解后结合本身的工作来阐明，这样更加可以或许体现对知识点的掌握程度。
Topic 1：可形变卷积

这个概念最早在 Deformable Convolutional Networks 中提出。
what：可变形卷积是指卷积核在每一个元素上额外增长了一个参数方向参数，这样卷积核就能在练习过程中扩展到很大的范围。
why：进步泛化本领。如何理解？
我们知道卷积核的目的是为了提取输入物的特性。我们传统的卷积核通常是固定尺寸、固定巨细的（例如3x3，5x5，7x7.）。这种卷积核存在的最大标题就是，对于未知的变化顺应性差，泛化本领不强。
  卷积单元对输入的特性图在固定的位置进行采样；池化层不断减小着特性图的尺寸；RoI池化层产生空间位置受限的RoI。网络内部缺乏可以或许解决这个标题的模块，这会产生显著的标题，例如，同一CNN层的激活单元的感受野尺寸都相同，这对于编码位置信息的浅层神经网络并不可取，因为不同的位置可能对应有不同标准大概不同形变的物体，这些层必要可以或许主动调解标准大概感受野的方法。再比如，目的检测虽然结果很好但是都依靠于基于特性提取的边界框，这并不是最优的方法，尤其是对于非网格状的物体而言。
  解决上述标题最直观的想法就是，我们的卷积核可以根据实际环境调解本身的形状，更好的提取输入的特性。
  how：（这里给出总结要点，后续必要补充图片以及相关阐明）
可变形卷积是在传统卷积的基础上，增长了调解卷积核的方向向量，使的卷积核的形态更贴近特性物。那么这个过程是如何实现的？下面我们详细说一下这个过程。
① 一开始，和正常的卷积神经网络一样，根据输入的图像，使用传统的卷积核提取特性图。
②然后把得到的特性图作为输入，对特性图再施加一个卷积层，这么做的目的是为了得到可变形卷积的变形的偏移量。
③偏移层是2N，是因为我们在平面上做平移，必要改变 x 值和 y 值两个方向。
④在练习的时候，用于生成输出特性的卷积核和用于生成偏移量的卷积核是同步学习的。此中偏移量的学习是使用插值算法，通过反向传播进行学习。
相关图阐明，20250502_1，20250502_2
【可变形卷积网络】
transfor：可形变池化。这一点的思绪与可形变卷积是一样的，同样提出来也是为了加强网络对不同标准和变形物体的辨认。
code：回家补充
【【论文精读】DCNv1:可变形卷积网络和可变形ROI池化（Deformable Convolutional Networks）】
Topic 2：麋集连接块

what：简朴来说，麋集连接块即在包管网络中层与层之间最大程度的信息传输的前提下，直接将所有层连接起来，为了可以或许包管前馈的特性，每一层将之前所有层的输入进行拼接，之后将输出的特性图传递给之后的所有层。
必要阐明的是，DenseNet的创新点在于将所有层都连接起来，这是一种更为激进的做法（相比于ResNet）
why：随着有关输入或梯度的信息颠末许多层，在到达网络的末端（或开始）时，它可能损耗大概消失。麋集连接块的提出便是对于此类标题的一种解决方法。
how：补网络结构图，20250502_3
1. 每一层都可以直接使用loss函数的梯度以及最开始的值，这样有助于练习更深的网络，同时可以或许减轻梯度消失现象。
2. 稠密连接模块的优点是相比传统卷积网络，其参数数目更少，缘故原由是因为它不必要再学习多余的特性图。DenseNet结构中，增长到网络中的信息与保留的信息有着显着的不同。DenseNet的dense block中每个卷积层都很窄（例如每一层有12个滤波器），仅仅增长小数目的特性图到网络的“集体知识”（collective knowledge），并且保持这些特性图稳定——最后的分类器基于网络中的所有特性图进行预测。另外作者这种麋集连接有正则化的结果，因此对于过拟合有肯定的克制作用，因为参数淘汰了，所以过拟合现象减轻。
3. 特性重用
4. 计算（此部分的latex公式后续补充）
transfor：结合本身的工作，显然再做Fusion part中，由于此中一部分来源与进行过边缘处置惩罚的图像，很有可能会丧失色块相关信息，而这部分信息，是可以通过DenseNet的思想来优化的。
DenseNet核心思想在于建立了不同层之间的连接关系，充实使用了feature，进一步减轻了梯度消失标题，加深网络不是标题，而且练习结果非常好。另外，使用bottleneck layer，Translation layer以及较小的growth rate使得网络变窄，参数淘汰，有效克制了过拟合，同时计算量也淘汰了；
DenseNet的不敷在于由于必要进行多次Concatnate操作，数据必要被复制多次，显存轻易增长得很快，必要肯定的显存优化技能，应用起来没有ResNet广泛。
code：回家补充
【轻量级卷积网络DenseNet：麋集连接卷积网络】
Topic 3：空间注意力机制（SAM）

在理解空间注意力机制前，应该先去了解什么是通道注意力机制（CAM）。
通道注意力机制(Channel Attention Mechanism, CAM)，通过特性内部之间的关系来通道注意力机制。特性图的每个通道都被视作一个特性检测器，所以通道特性聚焦的是图像中有用的信息是"什么"（what）。
what：通过对特性图空间内部的关系来产生空间注意力特性图。不同于通道注意力，空间注意力(Spatial Attention Mechanism, SAM)聚焦于特性图上的有效信息在"那里"（where）。
补充CAM,SAM结构图，20250502_4, 20250502_5
why：在深度学习模子中动态地调解输入数据的不同空间位置的紧张性，以加强有用信息并克制无用信息。
how：SAM思绪流程如下
1. 对输入特性图在通道维度上进行最大池化和平均池化，得到两个单通道的特性图。
2. 将这两个特性图沿通道维度拼接在一起。
3. 通过一个卷积层生成空间注意力图。
4. 使用sigmoid函数归一化权重，使得每个空间位置的注意力值在[0, 1]之间。
transfor：暂时没想到，待补充
code：回家补充
【通俗易懂理解通道注意力机制(CAM)与空间注意力机制(SAM) 】
【注意力机制：通道注意力机制、空间注意力机制、CBAM（附有完整代码) 】
Topic 4：Lossfuction

what：简朴的理解就是每一个样本颠末模子后会得到一个预测值，然后得到的预测值和真实值的差值就成为丧失（固然丧失值越小证实模子越是成功），我们知道有许多不同种类的丧失函数，这些函数本质上就是计算预测值和真实值的差距的一范例函数，然后颠末库（如pytorch，tensorflow等）的封装形成了有具体名字的函数。
why：在呆板学习中，我们想让预测值无穷接近于真实值，所以必要将差值降到最低（在这个过程中就必要引入丧失函数）。通过让丧失函数去反向作用于练习模子，从而得到更加精准的结果。具体的过程如下：
在呆板学习中，我们知道输入的feature（或称为x）必要通过模子（model）预测出y，此过程称为向前传播（forward pass），而要将预测与真实值的差值减小必要更新模子中的参数，这个过程称为向后传播（backward pass），此中我们丧失函数（lossfunction）就基于这两种传播之间，起到一种有点像承上启下的作用，承上指：接収模子的预测值，启下指：计算预测值和真实值的差值，为下面反向传播提供输入数据。
  how：常见的丧失函数有：MSE, Cross-Entropy Loss（交织熵），这部分的代码实现即简朴的数学原理，知道即可。
这里强调出SSIM与MS-SSIM，本身是图像领域的特化丧失函数，通过肯定迁移，同样可以运用到我们的领域中。
transfor, code：略
【丧失函数（lossfunction）的全面介绍（简朴易懂版）】
【丧失函数（loss function）（基本介绍，作用，场景，特点，常见丧失函数，代码示例）】
额外拓展：正则化
why：到场处罚项，防止过拟合
【丧失函数正则化详解】
Topic 5：Adam优化器

在开始这部分知识的整理之前，必要强调作者在今天会上回答的不敷。老板其时挖了一个坑，问：“网络中是Lossfuction是如何作用的？”。由于作者在最开始学习相关知识时，直接选择从python代码入手，爽爽使用已经封装好的优化器，以至于并不清楚具体是如何影响的，所以一顿插科打诨。此等环境下不为例！！！
优化器是一个很大的topic，这里我们着重介绍Adma优化器（所谓主动，也就解释了不深入学习的话，为什么作者会直接略过了这一部分）
what：Adam吸取了Adagrad（自顺应学习率的梯度降落算法）和动量梯度降落算法的优点，既能顺应稀疏梯度（即天然语言和计算机视觉标题），又能缓解梯度震荡的标题
why：在正向得到对应的lossfuction后，如何借此去优化模子，优化算法
how：补充adma latex公式
公式1：计算历史梯度的一阶指数平滑值，用于得到带有动量的梯度值
公式2：计算历史梯度平方的一阶指数平滑值，用于得到每个权重参数的学习率权重参数
公式3：计算变量更新值，由公式3可知，变量更新值正比于历史梯度的一阶指数平滑值，反比于历史梯度平方的一阶指数平滑值；
code：后续补充
【通俗理解 Adam 优化器】
【Adam优化器（通俗理解）】
Topic 6：关于方法论以及本身当前工作的一些思考

由于地动波图与天然图像有本质上的共性：即由边界和色块构成。所以肯定程度上视觉领域上的方法与模块，是可以迁移过来的。
最开始做本身这个方向时，也会猜疑我这究竟是不是就是水罢了，本质上没有什么价值。但就像老板和师姐所言，将别的领域的好方法，好结果迁移应用到本身的领域中，通过改进使得这些方法和模块可以或许更加契合本领域，这也是一种贡献。不用猜疑，这种创新同样有其价值所在。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

继续阅读请点击广告

【五一培训】Day 2

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

南七星之家

【五一培训】Day 2

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

南七星之家

登录参与点评抽奖加入IT实名职场社区