基于生成对抗模子GAN蒸馏的方法FAKD及其在EdgesSRGAN中的应用
FAKD系列论文paper1: FAKD:用于高效图像超分辨率的特征亲和知识蒸馏(2020)
https://i-blog.csdnimg.cn/direct/84440cfc9bce4837abc6bfdc9fead7fc.png
ABSTRACT
卷积神经网络(CNNs)已广泛应用于图像超分辨率(SR)。大多数现有的基于 CNN 的方法都专注于通过计划更深/更宽的网络来实现更好的性能,同时存在沉重的盘算成本问题,从而阻碍了此类模子在资源有限的移动设备上部署。为了缓解这个问题,我们提出了一种新颖高效的 SR 模子,称为基于特征亲和力的知识蒸馏 (FAKD),通过将繁重的西席模子的布局知识转移到轻量级学生模子中。为了有用通报布局知识,FAKD旨在从特征图中提取二阶统计信息,并以低盘算和内存成本训练一个轻量级的学生网络。实行效果表明,该方法在定量指标和视觉指标方面都优于其他基于知识蒸馏的方法。
1. INTRODUCTION
单图像超分辨率 (SISR) 旨在从其退化的低分辨率 (LR) 对应物生成高分辨率 (HR) 图像。它可用于各种盘算机视觉应用,如物体识别、医学成像和图像生成。迄今为止,已经开发了大量的SISR方法,包括基于插值的、基于希奇表示的和基于深度学习的方法。
现在,卷积神经网络 (CNN) 在图像超分辨率任务中盛行,并且由于特征表示表达的强大能力,取得了令人印象深刻的性能。在的开创性工作中,Dong等人首先提出了一种端到端卷积神经网络(SRCNN)来学习LR图像与其对应的HR图像之间的映射函数。厥后的作品,如EDSR、RDN和RCAN,通过将剩余块堆叠到数百层来构建非常深的网络,以到达开始进的效果。然而,大多数现有的基于 CNN 的 SR 方法都存在严肃的盘算成本问题,由于它们包罗大量参数。在实践中,由于手机和呆板人等资源有限的设备部署困难,这种繁重的模子在现实应用中受到限定。因此,计划轻量级 SR 模子至关紧张。
为了得到轻量级模子,近来有人尝试压缩网络模子,包括模子修剪、轻量级网络计划和知识蒸馏(KD)方法。模子剪枝和轻量级网络计划方法必要经心计划,可能会导致性能下降。相比之下,知识蒸馏方法在不改变网络布局的情况下比其他模子压缩方法具有优势。
传统的知识蒸馏(KD)首先被提出用于图像识别任务,并通过利用强西席网络的软标签来监督微小学生网络的训练,遵照师生范式。到目前为止,已经提出了几种 KD 方法。比方,Romero 等人。提出了 FitNet 来提取隐蔽在中心层特征图的知识。Sergey等人通过盘算中级特征的注意图提出了注意转移。鼓励学生网络生成与西席相似的注意力图。考虑到层之间的相干性的紧张性,Yim等人提出了求解过程流(FSP)来提取办理问题的信息,并将其作为训练学生的监督信号。然而,大多数现有的KD方法都专注于高级任务,如图像分类,而很少有人关注图像回归任务,如图像SR。劈面临图像 SR 时,怎样压缩模子仍然是一个悬而未决的问题,由于表示空间是无穷的 。在这里,我们尝试计划一个基于 KD 的高效 SR 框架。
为了有用地 SR,我们提出了一种新颖的基于特征的知识蒸馏 (FAKD) 框架,通过从西席模子中提取布局知识。最相干的工作试图从西席模子中流传简朴的一阶统计信息(比方,通道上的平均池化),而忽略了丰富的高阶统计信息。出于这个原因,我们专注于从特征图中提取二阶信息(比方特征内相干性),这被证明有助于更正确的重修 。详细来说,FAKD将知识从西席模子的特征图转移到轻量级学生模子中,这迫使轻量级学生模子模仿特征相干性。实行表明,我们提出的框架有用地压缩了基于 CNN 的 SR 模子,同时通过从强大的西席模子转移布局知识来进步学生网络的性能。
总之,主要贡献总结如下:
•我们提出了一个基于特征亲和力的知识蒸馏(FAKD)框架,该框架利用特征图中的相干性来监督学生网络的训练。探索了空间维度上的亲和信息,以进步蒸馏性能。
•实行表明,我们提出的框架在定量和视觉效果方面的良好性。
2. PROPOSED METHOD
我们提出的基于特征的知识蒸馏框架的管道如图1所示。退化的LR图像通过西席T和学生S网络流传。西席模子是一个强大的繁琐网络,而学生模子是一个轻量级网络。在我们的框架中,它们都共享相同的架构,具有不同的超参数(比方网络深度)。如图 1 所示,它们分别由 m 和 n 个残差块 (m > n) 组成。为了有用地将知识从西席模子转移到学生模子,学生网络的中心特征图被迫模仿西席模子的特征亲和矩阵。别的,西席输出图像和地面真实图像也被用来分别通过西席监督(TS)和数据监督(DS)来监督学生网络。
https://i-blog.csdnimg.cn/direct/e55906a2b62d4c3a9673a88d82aa6601.png
图1所示。基于特征亲和力的知识蒸馏(FAKD)框架的体系布局,以实现高效的图像超分辨率。给定一个沉重的老师及其对应的轻量级学生网络,FAKD通过强制西席和学生模子之间的相似特征相干映射,将知识从强西席模子转移到轻量级学生模子。
2.1. Feature Affinity-based Distillation (FAKD)
知识蒸馏的关键是计划一个符合的模仿丧失函数,该函数可以成功地流传有代价的信息来指导学生模子的训练过程。先前的研究 表明回归问题的特征表示空间是无穷的。出于这个原因,由于解空间巨大,为分类任务计划的现有蒸馏方法 可能不得当图像 SR。为了有用渲染图像 SR 的知识蒸馏,有须要限定解空间。为此,我们计划了一个通用的基于特征的知识蒸馏框架,用于高效的 SR。
给定一批特征图 F ∈ R b × C × W × H R^{b×C×W ×H} Rb×C×W×H ,我们首先将它们重塑为一个三维张量 F ∈ R b × C × W H R^{b×C×W H} Rb×C×WH ,分别是通道和空间维度。为了利用特征图中的同等性,我们建议盘算亲和矩阵 A。它们是利用来自低级、中级和高级层的特征图生成的,以表示不同级别的相干性。鼓励学生网络与西席网络产生相似的亲和矩阵,基于特征亲和力的蒸馏丧失可以表示为:
https://i-blog.csdnimg.cn/direct/05bf5dc7f19a4f2cb15ab9236a353c3c.png
此中 A l T A^{T}_l AlT 和 A l S A^{S}_l AlS 是从第 l 层的特征图中提取的西席和学生网络的亲和矩阵; l′ 是我们选择提取的层数。|A|表示亲和矩阵中的元素数目。
为了保存像素之间的空间连续性,我们从空间的角度考虑亲和矩阵,旨在探索像素之间的关系。该管道如图 2 所示,此中每个像素都被视为 C 维向量、蓝色列和归一化,在每一列中进行,如公式 2 所示。归一化后,每一列都是单元长度的,因此两个像素之间的余弦相似度简朴地由内积得到,这在履历上效果很好。空间亲和矩阵表示为:
https://i-blog.csdnimg.cn/direct/1ef6b104e1fb422fa6bae0590f396c29.png
此中 F ~ \tilde{F} F~ 是归一化特征图。生成的空间亲和矩阵的大小为b × HW × HW。空间亲和矩阵中的每个元素表示两个像素之间的空间相干性。
https://i-blog.csdnimg.cn/direct/7c7e7f6e3d704a588967964412c8647c.png
图 2. 空间亲和力盘算管道,C 是通道数,H,W 是空间大小,b 是批量大小。蓝色像素是亲和力的维度,将被归一化。
2.2. Overall Loss Function
除了基于特征的蒸馏,我们凭履历发现西席监督 (TS) 和数据监督 (DS) 也有助于进步蒸馏性能,如图 1 所示。 TS 和 DS 应该分别将学生的输出与西席和地面真实图像进行比较,如公式 4 和 5 所示。因此,学生网络可以从西席分布和真实数据分布中接收监督信号。整体丧失函数表示为等式 6。
https://i-blog.csdnimg.cn/direct/3859605778824caabfe0f5707bea2021.png
此中 I S R S I^{S}_{SR} ISRS、 I S R T I^{T}_{SR} ISRT 和 I H R I_{HR} IHR 分别是学生输出、西席输出和根本事实集的图像。α、β 和 γ 是惩罚系数,以均衡丧失的不同方面。利用这个整体丧失函数,可以优化学生网络以从西席中捕获全部这些知识。
3. EXPERIMENTAL RESULTS
3.1. Experimental Settings
在 之后,DIV2K 的 800 张图像作为训练集。为了测试,我们利用了四个基准数据集:Set5、Set14、BSD100、Urban100。LR图像是通过双三次插值(BI)得到的,PSNR和SSIM作为评价指标。
我们利用RCAN和SAN作为我们的主要西席和学生网络来验证我们的一样平常蒸馏框架的有用性。网络配置如表1所示。RCAN由多个残差组(resgroup)组成,每个残差组包罗内部的大量剩余块(resblock)。我们减少了残差块的数目,使学生网络中总参数的数目下降到约莫 30% 的西席。SAN 也是通过堆叠残差组和块来构建的,它将 RCAN 的注意力模块修改为二阶版本。与 RCAN 一样,我们还将残差组的数目从 20 减少到 6。
学生模子利用ADAM优化器进行训练,β1 = 0.9, β2 = 0.99, ϵ = 1 0 − 8 \epsilon = 10^−8 ϵ=10−8。初始学习率设置为 1 0 − 4 10^{−4} 10−4,每150个epoch减少到一半。
https://i-blog.csdnimg.cn/direct/64d9becbb7774a618c68055bb3fc64e3.png
表1。西席网络和学生网络的网络配置。#A表示A的数目。TN 和 SN 分别是西席和学生网络。
3.2. Ablation Study
蒸馏的有用性。为了验证不同组件对丧失函数的影响,我们利用各种丧失函数实行 RCAN。总体效果如表2所示。在第一行中,只采用数据监督,这意味着学生在没有蒸馏的情况下进行训练,只利用HR图像作为监督。其他三行的学生网络都利用不同的蒸馏策略进行训练。当分别添加西席监督 (TS) 或空间亲和力 (SA)(第二行和第三行)时,可以进步性能。我们进一步调查了整体蒸馏框架的效果。如表 2 中的最后一行所示,我们的方法得到了最好的效果。与没有知识蒸馏的底子模子(第一行)相比,知识蒸馏策略可以在各种数据集上实现同等的性能增益。在接下来的实行中,我们利用 DS、TS 和 SA 的组互助为我们的默认实行设置。
https://i-blog.csdnimg.cn/direct/69ec4cb9c38042cbb9b163d32f97160b.png
表2。不同成分对丧失函数的影响。DS =数据监督,TS = 西席监督,SA = 空间亲和力。最佳效果以粗体类型突出表现。
3.2. Ablation Study
蒸馏的有用性。为了验证不同组件对丧失函数的影响,我们利用各种丧失函数实行 RCAN。总体效果如表2所示。在第一行中,只采用数据监督,这意味着学生在没有蒸馏的情况下进行训练,只利用HR图像作为监督。其他三行的学生网络都利用不同的蒸馏策略进行训练。当分别添加西席监督 (TS) 或空间亲和力 (SA)(第二行和第三行)时,可以进步性能。我们进一步调查了整体蒸馏框架的效果。如表 2 中的最后一行所示,我们的方法得到了最好的效果。与没有知识蒸馏的底子模子(第一行)相比,知识蒸馏策略可以在各种数据集上实现同等的性能增益。在接下来的实行中,我们利用 DS、TS 和 SA 的组互助为我们的默认实行设置。
与其他特征KD方法的比较。我们将基于特征的亲和力蒸馏替换为五种变体,以验证我们的蒸馏方案的良好性。这些变体包括 FitNet、Attention Transfer(AT) 和 Solution Procedure(FSP)、通道亲和力 (CA) 和实例亲和力 (IA) 流程。
• FitNet的特征提取:我们遵照直接对齐西席和学生网络之间的特征映射。
•AT的特征蒸馏:我们在通道维度上聚合特征映射来生成注意图,然后将它们从西席网络转移到学生网络。
•FSP的特征蒸馏:提取两个中心层之间盘算的Gram矩阵。•通道亲和力(CA)的特征蒸馏:该机制雷同于空间亲和力,我们将通道视为HW维向量。归一化是在每个通道中进行的,两个通道之间的亲和力是通过利用雷同于等式 3 的方法得到的。得到的通道亲和矩阵是一个 b × C × C 矩阵。
• 通过实例亲和力(IA)进行特征蒸馏:实例被视为 CW H 维向量。雷同地,每个实例都遵照归一化,并且可以获取实例之间的相干性。实例亲和矩阵的大小为 b × b。
从表 4 中,我们可以看到我们的空间亲和力方法优于全部其他蒸馏策略。与我们的转换后,优于 FitNet 的优势可归因于有界表示空间。优于 AT 和 FSP 的优势在于我们将西席网络的知识翻译成信息量更大的压缩空间,能够从空间角度捕获亲和力信息。与其他两种基于亲和力的蒸馏方案相比,空间亲和力黑白常有用的,由于空间域中提取的信息比通道和实例域中的信息要丰富得多。
https://i-blog.csdnimg.cn/direct/d027fe61ec4b40e293887b57bd7ec521.png
表4。与其他特征提取方法的比较。
3.3. Benchmark Results
定量效果。两种师生情况下PSNR和SSIM的定量评价效果如表3所示。我们在200个epoch上训练我们的学生网络,批大小为16。对于4个scale ×2、×3、×4和×8中的全部数据集,我们基于亲和力的知识蒸馏(FAKD)取得了最好的性能,这表明确我们方法的有用性和良好性。RCAN 和 SAN 的平均性能增益约为 0.1dB,SAN 的 PSNR 增益大于 RCAN,这主要是由于 SAN 的西席模子更强大,因此可以提供更多布局知识。因此,可以从西席 SAN 中提取更有用的监督信号,从而得到更好的性能。还进行了模子大小分析和 FLOP。FLOPs 以 ×4 为单元丈量,输入图像大小为 48 × 48。效果表现模子大小大幅下降,而性能相当可接受。我们的蒸馏框架可以在不引入额外的参数和大量减少盘算量的同时稳定地进步性能。
https://i-blog.csdnimg.cn/direct/5f76035dea444d749403dbfac7feb373.png
表3。不同实行设置的定量效果(PSNR/SSIM)。突出表现最佳效果。
视觉效果。在图 3 中,我们还展示了有和没有知识蒸馏的输出图像的视觉效果。从图 3 可以看出,我们的知识蒸馏方案方法产生了更清晰的效果并规复了更多的图像细节(比方线条),同时在没有知识蒸馏方案的情况下无法规复此类图像细节。这表明我们的知识蒸馏方案可以有用地将知识从西席模子转移到西席模子中。别的,利用我们的蒸馏方案,可以在肯定程度上减轻含糊伪影。
4. CONCLUSION
在本文中,我们提出了一种基于特征亲和力的通用知识蒸馏(FAKD)框架,用于高效的图像超分辨率。在我们的FAKD中,我们考虑了特征图中像素之间的空间亲和力。为了有用地从西席模子中转移丰富的特征知识,我们从不同的层中提取亲和力知识来表示特征的规模。大量实行证明确我们提出的方法的有用性。
paper2: 具有 Knowledge distilation 的生成式对抗性超分辨率(2023 May 9)
https://i-blog.csdnimg.cn/direct/f553d990581a49cb8a87a2b8e9cde5f6.png
ABSTRACT
单图像超分辨率可以支持情况中的呆板人任务,此中必要可靠的视觉流来监控任务、处置惩罚远程操作或研究相干的视觉细节。在这项工作中,我们提出了一种有用的及时超分辨率生成对抗网络模子EdgeSRGAN1。我们采用原始SRGAN和模子量化的定制架构来进步CPU和Edge TPU设备上的实行,实现了高达200fps的推理。我们通过将其知识提炼为网络的较小版原来进一步优化我们的模子,并与尺度训练方法相比得到了显着的改进。我们的实行表明,与较重的开始进模子相比,我们的快速和轻量级的模子保持了相当令人满意的图像质量。最后,我们对带宽退化的图像传输进行了实行,以突出所提出的系统在移动呆板人应用中的优势。
1 Introduction
在过去的十年中,深度学习 (DL) 技术已经渗透到呆板人系统和应用中,极大地进步了感知 、导航和控制 任务中的自动化。呆板学习驱动算法的发展为移动呆板人高级自主水平铺平了道路,广泛进步了无人机(UAV)和无人机(UGV)的可靠性。只管云云,在恶劣的不可见情况中,采用移动呆板人进行测绘和探索、搜索和救援或检查任务可以提供明显的优势,低落人工操作人员的风险。在这种情况下,呆板人对地面站获取的图像的成功传输通常假设与手头的任务有明显相干性,允许人类操作员获取及时信息,监控任务的状态,做出关键的规划决策和分析场景。别的,未知的室外情况可能存在意想不到的非常特征,这仍然阻碍了无人移动呆板人在完全缺乏人工监督的情况下的释放。只管目前在隧道探索、行作物导航和水下等不同室外情况下,新的基于DL的自主导航算法正在进行研究,但在不确定的情况下,完全或部分远程遥操作仍然是最可靠的控制策略。事实上,不规则地形、光照条件和定位信号的丢失会导致导航算法失败。作为导航错误的直接效果,呆板人平台可能会陷入必要或首选人工干预的关键状态。
然而,呆板人远程操作、监控或在线数据处置惩罚的视觉数据传输必要稳定的连续图像流,由于呆板人的隔断长或特定情况的本构因素,可能会受到带宽条件差的严肃影响。别的,无人机和高速平台要求飞行员以高帧率接收图像流,以跟踪车辆在非视距情况下的运动。缓解带宽条件差、满足高频传输要求的直接但有用的办理方案是低落传输图像的分辨率。另一方面,大量细节丧失的大量图像压缩会损害图像的可用性。
为此,我们提出了一种新的边缘单图像超分辨率(SISR)深度学习模子EdgeSRGAN来处置惩罚高效图像传输的问题。我们的直觉依赖于一个轻量级的神经网络,允许我们以带宽稀缺的高传输速率发送低分辨率图像,然后在导频的移动设备上重修高分辨率图像。别的,edge-AI在不同工程应用中的成功流传在超低功耗嵌入式设备上移动DL模子的实行方面表现出令人鼓舞的效果。因此,我们提出了一种边缘盘算高效的超分辨率神经网络,以在 CPU 和 Edge TPU 设备上提供快速推理。为此,我们采用几个优化步骤来进步模子的性能,同时最小化质量下降。我们改进了原始SRGAN的体系布局,以加速推理和实行模子量化。只管云云,我们对SISR的师生知识蒸馏技术进行了实行,以进一步增强我们微小模子的重修图像。我们从的工作中得到灵感,并得到了全部考虑的指标的明显改进。
我们从多个角度进行实行以验证所提出的方法:我们的模子重修图像的数值和定性分析以及 CPU 和 Edge TPU 设备上的推理效率。比方,如图 1 所示,与其他面向视觉的 SISR 方法相比,EdgeSRGAN 以具有竞争力的感知相似性指数实现了及时性能。别的,我们测试了我们的系统在呆板人应用中的性能。特殊是,我们专注于在带宽退化的情况下远程操作的图像传输,也利用盛行的呆板人中心件ROS2进行测试。
https://i-blog.csdnimg.cn/direct/bd69e93fc2cf4e43845ab38f1435257f.png
图1:不同面向视觉的SISR方法的Set5和帧率(80 × 60输入)上的LPIPS效果(越低越好)。及时(RT)和过及时(ORT)帧率被标志为参考。我们的模子,标有。在 CPU 上利用具有竞争力的感知相似性索引到达及时性能。边缘 TPU 模子可以进一步进步远远超出及时的推理速度,仍然优于双三次基线。
本文的别的部分安排如下。在第 2 节中,我们介绍了超分辨率 (SR) 的研究远景,从一样平常背景开始,然后加深对 SR 呆板人应用的讨论和以前工作中提出的高效 SR 方法。在第 3 节中,我们形貌了超分辨率问题和我们的方法步骤,以得到及时性能的边缘 AI 实现。在第 4 节中,我们提出了广泛的实行来验证所提出的方法,分析了推理速度和输出图像质量得到的效果,并形貌了我们的方法在有限带宽条件下呆板人应用的优势。最后,在第 5 节中,我们总结了结论性批评的整体研究,并提出了一些潜在的将来工作方向。
2 Related Works
2.1 Single-Image Super-Resolution
单图像超分辨率,也称为超分辨率或图像规复,旨在从单个低分辨率 (LR) 输入图像开始重修高分辨率 (HR) 图像,试图保存图像构思的细节和信息。因此,SISR 与图像去噪一起是一个不适定的欠定逆问题,由于给定输入低分辨率图像存在多种可能的办理方案。近来,基于学习的方法已经迅速到达了开始进的性能,并广泛被认为是超分辨率最盛行的方法。这种方法依赖于以有监督的方式从多个 LR-HR 对中学习公共模式。SRCNN是CNN在文献中应用于单幅图像超分辨率的第一个例子。紧随厥后的是将尺度深度学习方法应用于SISR的多种方法,如残差学习、麋集毗连、残差特征蒸馏、注意力、13、45]、自我注意和变压器。全部这些工作都会合在基于内容的 SR 上,其目的是重修具有高像素保真度的图像,并且训练基于内容丧失,比方均方偏差或平均绝对偏差。
同时,其他工作为SISR提出了生成对抗网络(GAN),旨在重修视觉上令人愉悦的图像。在这种情况下,重点不是像素值,而是试图反映人类怎样感知图像质量的感知索引。这通常利用感知丧失和对抗训练来实现,称为基于视觉的 SR。SRGAN首先提出了对抗训练,随后是其他作品。考虑到呆板人图像传输作为目的应用,在这项工作中,我们特殊关注基于视觉的SR,旨在重修人类操作员用于及时远程操作和监控的视觉愉悦图像。
2.2 Efficient Methods for Single-Image Super-Resolution
近年来,针对 SR 的高效深度神经网络被提出来减少参数的数目,同时保持高质量的性能 。然而,大多数提出的架构办理方案都是为基于内容的训练而计划的,旨在最小化高分辨率图像和网络输出之间的差异。此中,提出了一种薄、简朴的模子,该模子将SR处置惩罚为双线性上采样残差补偿。只管得到了高质量的图像,但由于必要双重猜测,这种方法具有很高的推理耽误。不同的是,完全基于他们对Edge-AI芯片的研究,提出了一种仅由一层组成的超微小模子。
如前所述,我们更喜欢基于 GAN 的 SR 来增强为呆板人应用生成的图像的视觉外观。然而,文献中对高效 GAN 的成功研究非常罕见。近来,知识蒸馏 (KD) 已成为压缩深度模子和 GAN 的有前途的选择 。KD 最初出生于 2015 年,具有 的愿景工作,此中引入了师生框架作为知识转移机制。近来的工作在不同的变体中进化了这个概念:FitNets 引入了在蒸馏过程中同时涉及中心表示的想法,注意转移 (AT) 提出了一种基于注意力的蒸馏,激活界限 (AB) 风趣的是专注于隐蔽神经元形成的激活界限的蒸馏转移,在 中进一步推进。详细而言,考虑到SR中的KD应用,特征亲和KD (FAKD)利用中心特征亲和蒸馏进行psnr聚焦SR。我们发现这种方法对于基于 GAN 的 SR 也是一个很好的起点。不同的是,研究了一种用于无数据训练的渐进知识蒸馏方法。除了 KD, 近来提出了一种自动呆板学习 (Auto-ML) 框架来搜索最优神经模子布局,滤波器剪枝已被用作另一种优化技术 。
与之前的工作不同,我们对edge-SR的模子优化由三个主要步骤组成:首先,实行面向边缘的构筑定义;然后,我们利用师生知识蒸馏来进一步减小模子的维数;最后,我们实行TensorFlow Lite (TFLite)转换和量化,将网络实行转移到cpu和Edge TPU,推理速度最大。
2.3 Super-Resolution for Robotic Applications
SISR 近来在一些呆板人应用中被提出,此中高水平的细节有利于支持特定任务。移动呆板人室内遥操作的研究主要会合在进步用户体验,将深度学习方法与假造现实相结合,而忽略了恶劣条件下连通性退化造成的潜在瓶颈。不同的是,人们对用于水下呆板人感知的SISR进行了大量的研究,有用地办理了海上高质量图像采集问题,以实现精确的物体和物种检测。除了自主导航应用之外,风趣的上下文是呆板人手术 和医疗呆板人研究 ,此中 SISR 可以提供显着优势,进步外科医生精细高精度运动所需的细节水平。同样,呆板人获取的详细图像必要监测和检查目的。比方,利用超分辨率模子来增强在线裂纹检测和桥梁弱点原位分析。只管云云,到目前为止提出的相干工作还没有将超分辨率确定为图像传输的有用办理方案,以支持呆板人在带宽退化条件下对未知情况的远程操作和探索。
3 Methodology
在本节中,我们将介绍所提出方法的全部组件。如第 1 节所述,我们选择利用对抗性方法来得到像素级保真度和感知质量之间的最佳均衡。出于这个原因,我们从最盛行的基于 GAN 的 SISR 办理方案中的三个中得到灵感:SRGAN 、ESRGAN 和 AGD 。与开始进的办理方案相比,该方法旨在得到性能下降最小的及时SISR模子(EdgeSRGAN)。出于这个原因,我们将成功的文献实践与盘算效率高的元素混合,以得到轻量级架构。然后,我们计划了网络训练过程来利用像素级丧失、感知丧失和对抗性丧失的组合。为了进一步优化推理时间,我们应用知识蒸馏将EdgeSRGAN的性能转移到更小的模子(EdgeSRGAN-tiny)。别的,我们研究了量化对网络耽误和精度的影响。最后,我们提出了一个额外的推理时间网络插值特征,以允许像素级精度和照片级真实感纹理之间的及时均衡。
3.1 Network Architecture
正如之前所做的那样,我们采用SRGAN的原始计划,并对体系布局和训练过程提出了一些更改。但是,在我们的例子中,修改寻求效率和性能。为了得到较轻的架构,我们仅利用 N = 8 个残差块而不是原始 16 个来减少模子的深度。特殊是,我们利用简朴的残差而不是 提出的残差残差麋集块 (RRDB),由于它们盘算量较低。出于同样的原因,我们将 PReLU 激活函数更改为根本的 ReLU。我们还删除了批处置惩罚归一化,以允许模子在不生成工件的情况下更好地收敛。最后,我们利用转置卷积对上采样头而不是亚像素卷积。只管亚像素卷积很受接待和有用性,但由于像素混洗操作,亚像素卷积在盘算上要求很高,该操作在空间上重新排列特征通道。相反,我们选择衡量一些性能以进步效率并应用转置卷积来避免棋盘伪影等问题。完备的EdgeSRGAN架构如图2所示。所采用的鉴别器模子与中利用的相同,由于它只服务于训练目的,在推理时不必要。其架构如图 3 所示。
https://i-blog.csdnimg.cn/direct/7cddcc18373e4bbdbecd09e072bbb58b.png
图 2:EdgeSRGAN 生成器架构。
https://i-blog.csdnimg.cn/direct/30aadff3f7c047d8be4ff8c3d00dacec.png
图 3:EdgeSRGAN 鉴别器架构。该模子通过步长为 1 (B1) 和 2 (B2) 的交替块逐步低落图像的空间维度。第一个块(用 * 标志)不适用批量归一化。
3.2 Training Methodology
训练过程分为两部分,由于它是生成对抗 SISR 的常见做法。第一部分包括利用像素级丧失的经典监督训练。通过这种方式,我们资助生成器避免局部最小值并在后续的对抗训练中生成视觉上令人愉悦的效果。我们利用平均绝对偏差 (MAE) 丧失进行优化,由于它近来被证明比均方偏差 (MSE) 带来更好的收敛 。
https://i-blog.csdnimg.cn/direct/e188d1abb7814a6eb0b2223704b65303.png
此中 y H R y^{HR} yHR 是真实高分辨率图像, y S R y^{SR} ySR 是生成器的输出,B 是批量大小。我们利用峰值信噪比 (PSNR) 指标来验证模子。
在第二阶段,效果模子以对抗方式进行微调,优化考虑对抗性丧失和感知丧失的丧失。如所示,生成器G训练丧失可表示为
https://i-blog.csdnimg.cn/direct/b078f1037f7245088018c4f04447cf26.png
L G P L^{P}_{G} LGP为感知VGG54,为重修图像SR的特征表示与参考图像HR之间的欧氏隔断。利用在ImageNet上预训练的VGG19网络提取特征:
https://i-blog.csdnimg.cn/direct/8ddb7f9b3a084f5fb5fba16e005f07ef.png
此中 ϕ \phi ϕ 是感知模子 VGG。 L G A L^{A}_{G} LGA 是对抗性生成器丧失,定义为
https://i-blog.csdnimg.cn/direct/9e2baf2e55924f21bfd41eb82422611d.png
此中 D 是鉴别器。利用这种丧失,生成器试图通过生成与真实 HR 图像无法区分的图像来诱骗鉴别器。ξ 和 η 用于均衡不同丧失分量的权重。鉴别器 D 的权重利用对称对抗性丧失进行优化,这往往会正确区分 HR 和 SR 图像。
https://i-blog.csdnimg.cn/direct/9980c4523cce4ca59645c7d396266510.png
我们同时优化这两个模子,而无需像 GAN 的大多数开创性工作中那样交替的权重更新。整体训练方法总结在图 4 中总结了整体训练方法。
https://i-blog.csdnimg.cn/direct/75dede85b4774245be4cd1cc123f33a9.png
Figure 4: EdgeSRGAN Training Methodology.
3.3 Knowledge Distillation
如第 2 节所述,知识蒸馏 (KD) 因其能够将知识从更大模子转移到更简朴的模子的能力而受到越来越多的关注。特殊是,KD 已应用于一些 SISR 工作中,以压缩繁琐模子的纹理重修能力并得到高效的及时网络。然而,据我们所知,KD 从未应用于 GAN SISR 模子。出于这个原因,我们将为 SISR 开发的现有技术调解为 GAN 训练方法,称为基于特征亲和力的知识蒸馏 (FAKD) 。FAKD方法通过在网络的不同层对齐特征亲和矩阵,将二阶统计信息通报给学生。这个约束有助于办理回归问题生成无界解空间的事实。事实上,到目前为止,大多数 KD 方法只能处置惩罚分类任务。给定网络的层 l,从该层提取的特征图 Fl(在激活函数之后)具有以下形状:
https://i-blog.csdnimg.cn/direct/727fcca459f54fb1bc80af3943982eb0.png
此中 B 是批量大小,C 是通道数,W 和 H 是张量的宽度和高度。我们首先沿着最后两个分量展平张量,得到三维特征图
https://i-blog.csdnimg.cn/direct/cf07c9f5904d47b0ac0dc330b0455e7e.png
现在,它沿着单个轴保存全部空间信息。我们将亲和矩阵 A l A_{l} Al定义为乘积
https://i-blog.csdnimg.cn/direct/24af3e13182b4533a774c72ef135c641.png
此中 · 是矩阵乘法算子,转置 ⊤ \top ⊤交换张量的最后两个维度。 F l ~ \tilde{F_{l}} Fl~为归一化特征图,得到为
https://i-blog.csdnimg.cn/direct/32d5fce09a254fd39231bdff961fb386.png
与不同的是,范数是针对整个张量盘算的,而不但仅是沿通道轴盘算的。别的,我们利用欧几里得范数而不是平方来找到更好的收敛。如许,亲和矩阵的形状就有
https://i-blog.csdnimg.cn/direct/70ea80aae01f41c1ab05acf5cba1e0b1.png
总蒸馏丧失 L D i s t L_{Dist} LDist变为
https://i-blog.csdnimg.cn/direct/3700d8a9866045bb83cb95f85cfc7746.png
此中 N L N_{L} NL 是蒸馏层数。与 不同的是,我们将全部张量维度的丧失相加,并对不同层得到的效果进行平均。这些修改实行导致更好的训练收敛。我们还添加了另一个丧失组件,由 λ 加权,它优化模子以生成接近西席输出的输出。在我们的实行中,蒸馏丧失被添加到由参数 γ 加权的整体训练丧失中。整体蒸馏方案如图5所示。
https://i-blog.csdnimg.cn/direct/bb3be7a64c4349ac9c4ffda24424541d.png
Figure 5: EdgeSRGAN Distillation Process.
3.4 Model Interpolation
遵照中提出的过程,我们采用灵活有用的策略来得到面向内容和GAN训练的模子之间的可调衡量。此功能对于及时应用非常有用,由于它允许 SISR 网络及时顺应用户的需求。事实上,一些真实场景可能必要更好的感知质量,比方,当呆板人的远程控制必须由人类飞行员实行时。另一方面,当图像用于直接馈送感知、自主导航和映射算法时,更高的像素保真度可能是有益的。为了实现这一目的,我们根据以下公式逐层线性插值模子权重:
https://i-blog.csdnimg.cn/direct/57bcd7016d914a5ab4053c97964dafd3.png
此中 θ G I n t e r p θ^{Interp}_{G} θGInterp、 θ G P S N R θ^{PSNR}_{G} θGPSNR和 θ G G A N θ^{GAN}_{G} θGGAN分别是插值模子、PSNR 模子和 GAN 微调模子的权重。α ∈ 是插值权重。我们在第 4.3.1 节中陈诉了 EdgeSRGAN 的定性和定量插值效果。我们避免了直接插值网络输出的替换技术:及时应用此方法将必要同时运行两个模子。别的,Wang等人陈诉说,这种方法不能包管噪声和含糊之间的最佳衡量。
3.5 Model Quantization
为了使EdgeSRGAN实现更低的推理耽误,我们将优化方法应用到模子中,以性能丧失为代价来减少盘算工作量。在过去的几年里,已经开发了几种技术来进步模子效率 ,从中选择所采用的方法。我们用TFLite2减少了用于表示网络参数和激活函数的比特数。该策略大大进步了效率,对性能有肯定的影响。我们遵照Jacob等人提出的方法,通过尺度和零点参数目化权重、激活和数学运算:
https://i-blog.csdnimg.cn/direct/08a5374cd3e44100b1fdb238c4adc456.png
此中 r 是原始浮点值,q 是量化整数值,S 和 Z 是量化参数(尺度和零点)。采用定点乘法方法来处置惩罚S的非整数尺度。由于微控制器上整数盘算的高效率,该策略大大低落了内存和盘算需求。在我们的实行中,我们在 Google Coral Edge TPU USB 加速器 3 上部署了量化模子。
4 Experiments
4.1 Experimental Setting
在本节中,我们定义了我们方法的实现细节和我们遵照的步调,以最优地训练和验证EdgeSRGAN的效率。正如大多数基于 GAN 的 SISR 作品之前所做的那样,我们在具有 4 的比例因子的高质量 DIV2K 数据集 上训练网络。该数据集包罗 800 个训练样本和 100 个验证样本。我们利用大小为 24x24 像素的输入图像训练我们的模子,从训练会合选择随机补丁。我们通过随机翻转或旋转 90° 的倍数来应用数据增强。我们采用 16 的批量大小。
对于尺度的 EdgeSRGAN 实现,我们选择 N = 8、F = 64、K = 3 和 D = 1024,得到一个参数约为 660k 的生成器和超过 23M 的鉴别器(由于全连讨论)。鉴别器由 F = 64、K = 3、D = 512 构建,LeakyReLU α = 0.2 的系数。我们首先利用 Adam 优化器以 5 × 105 步逐像素训练 EdgeSRGAN,恒定学习率为 1 × 10−4。然后,该模子在第 3 节中形貌的对抗性设置中进行了微调,用于 1 × 105 步。Adam 优化器用于生成器和判别器,学习率为 1 × 10−5,在 5 × 104 步后进一步除以 10。对于丧失函数,我们设置 ξ = 1 × 10−3 和 η = 0。
为了得到更小的蒸馏实行模子,我们通过选择 N = 4、F = 32 和 D = 256 来构建 EdgeSRGAN-tiny。我们通过从每个块中删除第一个压缩阶段 (B1) 来进一步缩小鉴别器的大小(见图 3)。在这个配置中,我们还从第一个 B2 块中删除了批量归一化层,以与更大的版本保持同等。得到的生成器和鉴别器包罗约莫 90k 和 2.75M 参数。预训练过程是EdgeSRGAN所形貌的过程,而对抗训练是用Eq. 11的附加蒸馏丧失( γ = 1 × 1 0 − 2 γ = 1 × 10^{−2} γ=1×10−2, λ = 1 × 1 0 − 1 λ = 1 × 10^{−1} λ=1×10−1)实行的。EdgeSRGAN被用作西席模子,将其层2、5和8提取到EdgeSRGAN-tiny层1、2和4中。该模子的学习率为 1 × 1 0 − 4 1 × 10^{−4} 1×10−4,在 5 × 1 0 4 5 × 10^{4} 5×104步后进一步除以10。对于丧失函数,我们设置ξ = 1 × 1 0 − 3 1 × 10^{−3} 1×10−3,η = 0。
最后,我们创建了模子的第三个版本,以 8 倍放大图像。为此,我们将 EdgeSRGAN 和 EdgeSRGAN-tiny 的第一个转置卷积层更改为 4 而不是 2 的步长,并将别的架构保持稳定。这些模子的训练过程雷同于 x4 模子的训练过程,主要区别在于通过提出 η = 1 × 1 0 2 η = 1 × 10^{2} η=1×102 将基于像素的组件添加到对抗性丧失中。
通过在 DIV2K 验证上运行随机搜索并选择性能最佳的模子来找到最佳训练超参数。在 GAN 训练期间,我们利用 PSNR 在基于内容的丧失优化和 LPIPS (利用 AlexNet 主干)期间验证模子。
我们利用 TensorFlow 2 和具有 64 GB RAM、Intel i9-12900K CPU 和 Nvidia 3090 RTX GPU 的工作站来实行全部训练实行。
4.2 Real-time Performance
由于所提出方法的主要重点是训练一个优化的 SISR 模子,以便及时有用地在边缘运行,我们首先陈诉所提出的方法与其他文献方法之间的推理速度比较。全部效果如表1所示,作为 10 个独立实行的平均值和尺度偏差,每个猜测 100 个。我们将所提出的方法与其他基于 GAN 的方法 以及面向内容的 SISR SwinIR 中当前开始进的方法进行了比较。由于基于 GAN 的办理方案的原始实现仅考虑 ×4 上采样,对于 ×8 比较,我们只陈诉 SwinIR。我们为实行选择了两种不同的输入分辨率(80 × 60)和(160 × 120),分别为 ×4 上采样的目的(320 × 240)和(640 × 480)分辨率,以及 (640 × 480) 和 (1280 × 960) 用于 ×8 上采样。这种选择是公道的,由于 (640 × 480) 是大多数相机原生视频流提供的尺度分辨率。我们还陈诉了全部模子的参数数目。
https://i-blog.csdnimg.cn/direct/6e35c4b6b40249e79705fc24bddd9d42.png
表 1:×4 和 ×8 上采样不同方法的帧速率比较,具有两种不同的输入分辨率(80 × 60 和 160 × 120)。效果作为 10 个独立实行的平均值和尺度偏差提供,每个实行有 100 个猜测。目前面向内容的SISR开始进的方法SwinIR作为参考。及时(Real-time)和过及时(over-real-time)帧率分别为蓝色和红色。所提出的办理方案是唯一与 EdgeTPU 设备兼容的办理方案,并允许在这两种情况下到达及时性能。
对于全部考虑的方法,我们利用 Intel i5-8257U 处置惩罚器在 MacBook Pro 上利用原始实现(PyTorch 或 TensorFlow)的模子格式来丈量 CPU 时序。及时性能的概念很大程度上取决于卑鄙任务。对于呆板人监控和远程操作,我们将 10 fps 视为最小及时帧速率,考虑超过 30 fps 的及时全部内容,这是大多数商业相机的尺度帧速率。所提出的方法在推理速度上优于全部其他方法,在险些全部测试条件下在 CPU 上实现及时性能。值得注意的是,AGD 是专门为减少基于 GAN 的 SR 的耽误而计划的,并且比 EdgeSRGAN 的参数更少,但它仍然无法在没有 GPU 的情况下及时实现。
别的,我们陈诉了EdgeTPUCoral USB加速器上EdgeSRGAN int8量化模子的帧率。所提出的办理方案是唯一与此类设备兼容的办理方案,并允许到达 (80 × 60) 输入分辨率的过及时性能。由于内存限定,必须强调具有 (160 × 120) 输入分辨率的 ×8 模子怎样无法针对 EdgeTPU 设备。
4.3 Super-Resolution Results
为了呈现图像超分辨率的定量效果,我们参考基于内容的丧失训练的模子的面向内容的 SR,以及针对利用对抗性和感知丧失训练的模子的面向视觉的 SR。基于内容的丧失(平均绝对偏差或均方偏差)旨在最大化 PSNR 和 SSIM,而对抗性和感知丧失旨在最大化视觉质量。我们在丈量PSNR、SSIM和LPIPS的五个基准数据集(Set5、Set14、BSD100、Manga109和Urban100)上测试EdgeSRGAN模子。我们遵照中采用的SISR的尺度过程,此中度量是在YCbCr转换图像的亮度通道Y上盘算的。别的,从每个图像界限裁剪 S 像素,此中 S 是模子比例因子。
表2和表3分别表现了面向内容和面向视觉的×4 SR与其他方法的比较。我们陈诉了其他基于gan的方法的效果,以及当前面向内容的SOTA SwinIR和双立方基线,作为参考。与通常在文献中发现的不同,我们参考的是opencv4双立方大小调解实现,而不是MATLAB中的实现。对于面向视觉的SR,我们也陈诉了提取的微小模子EdgeSRGAN-tiny⚗的效果。所提出的方法在全部指标上都到达了具有竞争力的效果,纵然由于相当大的重量减轻而导致微小模子的一些退化。精馏法通过从尺度模子中转移知识,减少由于参数数目减少而导致的退化,从而资助EdgeSRGAN-tiny训练。请注意,除了DIV2K之外,ESRGAN和RealESRGAN还在Flickr2K和OST数据集上进行了训练。表4陈诉了×8模子以及SwinIR和bicubic模子的效果。别的,在这种情况下,所提出的模子到达竞争效果,知识蒸馏有助于减少微小模子中的性能下降。作为最后的定性评价,图6将EdgeSRGAN得到的超分辨率图像与考虑的开始进办理方案进行了比较。我们的模子表现了雷同的效果,与利用像素丧失( L M S E L_{MSE} LMSE)训练的网络相比,突出了更多的纹理和细节,同时保持了对地面真实图像的真实性。
https://i-blog.csdnimg.cn/direct/a2b5b8d8c6be4258afe8af915acec969.png
表2:面向内容×4上采样的不同方法的定量比较。目前SISR开始进的方法SwinIR和双三次基线作为参考陈诉。↑:越高越好,↓:越低越好,†:在DIV2K + Flickr2K + OST上训练
https://i-blog.csdnimg.cn/direct/2086baf1f0f442e895b98f9a506c0f55.png
表3:面向视觉×4上采样的不同方法的定量比较。目前的SISR开始进的方法SwinIR和双三次基线作为参考陈诉。↑:越高越好,↓:越低越好。†:在 DIV2K + Flickr2K + OST 上训练。
https://i-blog.csdnimg.cn/direct/db41f76903ac4eab9897a4c428effeda.png
表 4:所提出的方法对 ×8 上采样的定量性能。目前SISR开始进的方法SwinIR和双三次陈诉作为参考。↑:越高越好,↓:越低越好
https://i-blog.csdnimg.cn/direct/59bd45b46add4469bd9add888d8b14b0.png
图6:考虑数据会合随机样本上的双三次图像SR (×4)方法的视觉比较。EdgeSRGAN 取得了与开始进的办理方案相当的效果,权重约为 10%。
4.3.1 Model Interpolation
我们在图8中陈诉了基准数据集上网络插值的效果。我们考虑0到1之间的α值,步长为0.1,0表示完全面向视觉的模子,1表示完全面向内容的模子。全部效果都是指用于×4上采样的尺度EdgeSRGAN模子。这个过程有用地展示了怎样通过改变插值权重 α 在面向内容和面向视觉的 SR 之间选择所需的衡量。权重值的增加导致内容相干指标PSNR和SSIM的改善,感知指数LPIPS恶化。这种举动适用于全部测试数据集,验证了所提出的方法。这个过程可以很轻易地在及时应用中进行,只必要一次盘算插值权重。因此,它不会影响推理速度的任何方式。对于额外的视觉评估,图 7 陈诉了在随机数据集样本上增加 α 值所得到的输出。
https://i-blog.csdnimg.cn/direct/dc39032814254366ac51471997c9e573.png
图 7:插值 EdgeSRGAN 对不同 α 值的视觉比较。更接近 1 的值生成专注于内容保真度的输出,而小值则朝着视觉上令人愉悦的效果迈进。
https://i-blog.csdnimg.cn/direct/e2ebafa60dab418e85328355fb3dab1d.png
图8:EdgeSRGAN网络插值效果在×4上采样的基准数据集上。改变网络插值权重 α,可以在面向内容和面向视觉的 SR 之间选择所需的衡量。↑:越高越好,↓:越低越好
4.3.2 Model Quantization
为了针对Edge TPU设备并到达及时推理效果,我们遵照Eq. 13的量化方案,对权值和激活进行权值和激活,得到一个全整数模子。由于量化模子必须具有固定的输入形状,我们为测试样本的每个输入形状生成一个全整数网络。我们利用来自 DIV2K 验证集的 100 张图像作为代表性数据集来校准量化算法。我们将int8量化的尺度模子称为EdgeSRGANi8。对于微型模子,我们优化了蒸馏网络EdgeSRGANi8-tiny♦。面向视觉优化模子的效果如表5所示。由于全整数模子的激活和权重低落,我们以SR性能下降为代价,在推理速度上经历了巨大的进步。全部提出的量化模子在感知索引LPIPS上仍然优于双三次基线,因此代表了必要真正快速推理的应用步调的良好选择。面向视觉×4上采样的不同模子的比较如图1所示。我们考虑Set5数据集上的LPIPS性能与帧率相比。
https://i-blog.csdnimg.cn/direct/5029a8b552ee4288961af06e9e66443e.png
表 5:×4 和 ×8 基于视觉的 SR 的全整数目化模子的定量性能。↑:越高越好,↓:越低越好。
https://i-blog.csdnimg.cn/direct/8ddde7d569724f4e95bbda7e47d9c000.png
图1:不同面向视觉的SISR方法的Set5和帧率(80 × 60输入)上的LPIPS效果(越低越好)。及时(RT)和过及时(ORT)帧率被标志为参考。我们的模子,标有星,在 CPU 上利用具有竞争力的感知相似性索引到达及时性能。边缘 TPU 模子可以进一步进步远远超出及时的推理速度,仍然优于双三次基线。
4.4 Ablation Study
为了进一步验证我们的模子对及时超分辨率的有用性,我们进行了消融研究,以分析我们的布局计划选择的影响。特殊是,我们以四个渐进步骤对EdgeSRGAN进行基准测试,陈诉保真度,感知性能和推理速度。我们考虑的步骤如下:
1.减少剩余块数N;
2. 用转置卷积代替像素Shuffle上采样阶段
3. 去除批归一化;
4. 用ReLU替换PReLU激活。
最后一步对应于EdgeSRGAN的最终版本。对于模子的每一步,我们利用与3.2中形貌的相同的训练过程,并在(80x60)和(160x120)输入分辨率下丈量CPU上的推理速度。全部效果陈诉在表6中。实行证实,每个压缩步骤都可以通过最小的感知质量得到可观的推理速度。总体而言,我们观察到-3.7%的LPIPS感知质量和+280%的推理速度。
https://i-blog.csdnimg.cn/direct/916bf4503cc9488cbcea31d13660fafc.png
表6:EdgeSRGAN在四个不同步骤下的消融研究效果。最后一步对应于最终模子。总体而言,我们观察到-3.7%的LPIPS感知质量和+280%的推理速度。↑:高越好,↓:低越好。
4.5 Application: Image Transmission for Mobile Robotics
我们的及时SISR可以在各种现实工程应用中提供竞争优势。在本节中,我们针对移动呆板人的特定用例,提出我们的EdgeSRGAN系统作为一种高效的基于深度学习的及时图像传输办理方案。事实上,未知地形中的呆板人远程控制必要以令人满意的帧率可靠地传输视觉数据,纵然在带宽下降的条件下也要保持鲁棒性。这一要求与高速平台和无人机特殊相干。危险或玄妙的任务,如隧道勘探、检查或开放空间任务,都必要可用的视觉流供人类监督,而不管平台的自主程度怎样。在过去的几年里,呆板人社区不停专注于开发呆板人软件和架构的全球共享办理方案,以及处置惩罚多个平台和设备之间的数据通讯。ROS2是呆板人平台的尺度操作系统。它是基于数据分发系统(DDS)协议的中心件,此中应用步调节点通过具有发布者/订阅者机制的主题相互通讯。然而,只管近来尝试进步不同节点宁静台之间的消息和数据包通讯的可靠性和效率,但较重的数据传输,如图像流,尚未得到优化和可靠。
用于呆板人在未知情况中远程操作和探索的典型现实设置由毗连到同一无线网络的地面站和周游车组成。如图9所示,我们采用这种地面站配置来测试通过ROS2主题的图像传输,任何呆板人应用都应该如许做,以流式传输呆板人看到的内容或接收视觉数据,并为自主导航和测绘提供感知和控制算法。在这个实行中,我们利用了安装在Clearpath Jackal呆板人上的英特尔RealSense D435i摄像头和罗技C920网络摄像头,以及用于图像传输的Microhard BulletPlus8路由器。RealSense相机(呆板人视觉感知的尺度RGBD传感器)的可用图像分辨率为(320 × 240)和(640 × 480),而帧率通常在15到30 fps之间变革。
https://i-blog.csdnimg.cn/direct/5e661a58c69b421d9dc84cd06eeb8c24.png
图9:户外情况下移动呆板人应用的EdgeSRGAN高效图像传输系统。
只管没有强大的带脱期制,传输耽误或部分数据包丢失,ROS2通讯允许的最大分辨率和帧率非常低:我们发现在30 fps时,RGB的最大传输分辨率是(120 × 120),带宽为20 Mb/s,而将帧率低落到5 fps,限定是(320 × 240)。帧率和分辨率之间的这种严酷衡量阻碍了呆板人平台在任务中的高速运动,由于减少了场景监督,增加了碰撞的风险。纵然在服务质量(QoS)设置(通过主题管理包的接收)中选择最佳努力,检测到的性能也总是很少。
采用我们的及时超分辨率系统,确保通过ROS2及时到达RGB和深度图像。由于EdgeSRGAN的快速推理性能,我们可以以高帧率(30 fps)流式传输低分辨率图像(80 × 60),并接收高分辨率输出:(320 × 240)与x4图像上采样和(640 × 480)与x8上采样,表现出尺度性能的明显改进。我们的系统允许地面站通过一个简朴的ROS主题访问流数据。因此,它在呆板人远程操作和自主导航方面提供了多种竞争优势:高分辨率图像可以直接被人类操作员用于远程控制。别的,它们还可以用于满足盘算量大的算法,如感觉运动代理、视觉里程计或视觉slam,我们可能更倾向于在地面站上运行,以节流呆板人有限的电力资源,并明显进步任务的自主性水平。在图10中,我们陈诉了一个定性比较,以突出EdgeSRGAN在真实呆板人场景中的有用性。我们特殊考虑了苹果监控、葡萄园导航、自动探测车的无人机监控和隧道检查。
https://i-blog.csdnimg.cn/direct/418799e48e424f1b8e1e4e038e6be03d.png
图10:在真实场景中应用EdgeSRGAN (×4)的定性演示(放大检察更多细节)。从上到下:苹果监控、葡萄园导航、无人驾驶探测车监控、隧道检查。
我们还在更一样平常的框架中测试视频传输性能,以重现全部潜在的带宽条件。我们利用闻名的视频流库GStreamer9来改变可用带宽来传输视频样本。我们利用Wondershaper库逐步将带宽从10 Mbps低落到10 kbps,并在接收端丈量帧率。编码是脱机实行的,以确保全部可用资源仅用于传输。事实上,大多数相机都提供硬件编码的视频源,而不必要软件压缩。为了与其他实行保持同等,我们继续利用(640 × 480)和(320 × 240)作为高分辨率,(160 × 120)和(80 × 60)作为低分辨率。每个实行进行10次,以检查效果的同等性。图11给出了不同带宽下的平均帧率。无需任何中心件(如ROS2)直接流式传输视频,可以包管更高的传输性能。然而,正如预期的那样,在低带宽的情况下,流媒体高分辨率图像是不可能的,帧率很快下降到非常低的值,导致不得当及时应用。另一方面,纵然可用带宽较低,也可以以最小的帧丢进行低分辨率的流式传输。H264压缩表现出与MJPEG相同的举动,但转向更低的带宽。现实上,H264更加复杂和高效,由于它除了利用空间压缩之外还利用时间帧相干。在具有肯定带脱期制的现实应用中,可以选择适当的低分辨率视频源和SR模子组合,以满足可用平台(CPU或Edge TPU)的所需帧率要求。该机制还可以根据当前毗连动态自动激活和停用,以避免帧率下降,确保图像传输顺畅。
https://i-blog.csdnimg.cn/direct/821bf27891934d0bb7099ed56ab9af28.png
图11:利用MJPEG和H264压缩,在不同输入分辨率下视频传输的帧率效果与带宽之比带宽以对数尺度表示。
5 Conclusions and Future Works
在本文中,我们提出了一种利用生成对抗方法的SISR边缘人工智能模子。受盛行的开始进的办理方案的启发,我们计划了EdgeSRGAN,它得到了可比的效果,在参数数目方面要小一个数目级。我们的模子比SRGAN快3倍,比ESRGAN快30倍,比SwinIR快50倍,同时保持相似以致更好的LPIPS性能。为了得到额外的推理速度,我们将知识蒸馏应用于EdgeSRGAN,得到了一个更小的网络(EdgeSRGAN-tiny),在有限的性能丧失下得到了额外4倍的速度。别的,模子量化用于优化模子,以便在Edge TPU上实行。同时,实现了网络插值,允许潜在用户在像素级保真度和感知质量之间均衡模子输出。在多个数据集上进行的大量实行证实了我们的模子在性能和耽误方面的有用性。最后,我们考虑了我们的办理方案在呆板人远程操作中的应用,突出了EdgeSRGAN在传输带宽有限的许多现实场景中的有用性和鲁棒性。将来的工作可能会研究其他优化技术的影响,如修剪和神经布局搜索。别的,在变压器等较新的架构上开发优化的Edge AI版本可能会在办理及时SISR方面带来优势。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]