数据仓库与分析基于深度学习多图像融合的屏幕缺陷检测方案

来自云龙湖轮廓分明的月亮 发表于 2024-12-23 07:20:34

基于深度学习多图像融合的屏幕缺陷检测方案

公司项目，已申请专利。
https://i-blog.csdnimg.cn/direct/261c03832c5440a3aad2c77e26df293e.png
深度学习作为新兴技能在图像领域发达发展，因其自主学习图像数据特征的性能克制了人工设计算法的繁琐，精准的检测性能、高效的检测效率以及对各种不同范例的图像任务都有比力好的泛化性能，使得深度学习技能在图像领域得到广泛应用，包括图像检测、图像分类、图像重构等。
屏幕缺陷检测作为保障显示屏质量的重要步调在显示屏生产过程中占据重要位置，屏幕缺陷包括点线缺陷比如暗点暗线，Mura缺陷，外观缺陷等。显示屏缺陷需要通过高清工业相机拍照成像后再由算法进行检测，而不同的缺陷需要通过不同的光学方案才气得到较为清楚的图像，光学方案包括相机拍摄角度包括正视斜视，打光方案包括光源强度及光源角度等，因此不同屏幕缺陷范例或者同一类缺陷范例的不同体现需要通过不同的光学方案得到多张拍摄图像供算法处理。
多张图像的处理增长了算法的工作量以及需要后期对多张图像进行检出效果整合，需要考虑不同图像中同一个缺陷的像素位置对齐的题目，增长了算法的复杂度。
深度学习图像算法通过提取图像中的特征信息，在高维空间中构建特征向量空间，可以通过提取多张图像中的特征信息，在高维空间中进行融合，将多张图像中的缺陷信息融合在一个统一的高维特征信息空间中，实现端到端(End-To-End)的屏幕缺陷检测，通过融合不同光学方案下的单一缺陷图像，整合不同图像中的多维缺陷信息，进步缺陷检测的精度，消除传统算法分别对多张图像进行处理后再做效果整合的弊端，进步屏幕缺陷检测效率。
本专利将深度学习中的多图像融合技能应用于显示屏缺陷的检测中，设计出一种基于Mixed-Attention结构的神经网络，称为MIFT-Net(Multi Image Fuse Test Net)，对同一个缺陷显示屏进行不同光学方案的拍照，得到多张不同的图像，通过对各个图像进行特征提取及特征对齐融合，使用多头混淆留意力机制进行各个图像特征的对齐融合，形成统一的高维特征空间，通过对同一个缺陷在不同图像中的特征进行特征信息整合，得到该缺陷更加清楚更加全面丰富的缺陷信息，进步检测效率。本专利缺陷检测部分属于开放方式，可以使用各种不同检测模块处理不同缺陷任务，即可以进行多任务处理，大大增强了模型的泛化性，进步了模型的通用性。
本专利提出了一种基于深度学习多图像融合的屏幕缺陷检测方案，使用不同光学方案对同一个缺陷屏幕进行拍照取图，包括相机参数的不同设置，相机拍摄角度以及不同光源的打光方案，得到同一个缺陷屏幕的不同成像方式的多张图像，通过神经网络卷积操尴尬刁难多张图像进行特征提取，通过混淆留意力机制对各张不同特征图进行特征对齐融合，统一编码成一个高维特征信息向量空间，然后在这个统一特征空间中进行后期缺陷检测。
在图像特征信息提取阶段，使用基于金字塔结构的分层卷积方式，融合同一张图像中不同条理的特征信息，能更好地得到整张图像全面丰富的特征信息。在多图像特征融合阶段，使用基于Self-Attention和Cross-Attention的多头混淆留意力机制，对同一缺陷屏幕多张不同的特征图进行特征对齐，融合各张图像的多角度信息。针对缺陷屏幕图像分辨率高，缺陷像素面积小的特点，使用基于Deformable Attention的混淆留意力机制，使得大大镌汰计算量，更加关注缺陷部分及其附近像素的特征而或略远处无关像素的信息，进步缺陷特征的提取精度及效率，创新性地在互留意力模块中也使用了Deformable Attention，能更好的得到各张不同图像特征中的对齐信息。

Deformable Attention

将Transformer留意力应用到图像特征图上的核心题目是，它将查看所有大概的空间位置。为了解决这个题目，可变形留意模块只关心参考点附近的一小组关键采样点，而不考虑特征图的空间巨细。通过为每个查询分配少量固定数量的键，可以缓解收敛性和特征空间分辨率题目。
给定一个输入特征图 x ∈ R C × H × W使q为上下文特征 Z q的查询元素， P q 为一个二维参考点，可变形留意力特征可以通过以下方式计算:
https://i-blog.csdnimg.cn/direct/7e1b2a1043e449f892f309db33ff4620.png

输入特征图 x（C x H x W），特征图中每个像素点都是一个C通道的向量 z q，每个像素点的索引(Reference Point)也就是二维位置坐标为 p q。M代表多头留意力机制中头的数量。每一个头中只考虑 z q附近 K个点（K远小于H x W）。 Δ p m q k代表采样的位置偏移量，是一个二维的坐标（初始化采样点是固定的，但后续将通过全毗连层计算预测更加值得关注的点的坐标）。 A m q k 代表留意力的权重（ ∑ k = 1 A m q k = 1）。 W m 和W ’ m代表两组全毗连层的权重参数。
两个需要学习预测的值 A m q k 和 Δ p m q k 都是通过 z q计算而来的。
https://i-blog.csdnimg.cn/direct/64741db095014ef98f86da8fbb6dd981.png

[*]此中位置偏移delta_pmqk是可学习的，由query经过全毗连层得到。
b.留意力权重直接由query经过全毗连层得到。
c.每个query在每个头部中采样K个位置，只需和这些位置的特征交互(x(pq+delta_pmqk)代表基于采样点位置插值出来的value)
Deformable-Attention通过仅计算某个特征点附近有限个其他特征点而不是计算整张特征图中所有特征点，大大降低了计算量，而且使得该特征点忽视了很多和它本身无关的其他特征点，使得留意力计算更加精准，特别得当分辨率较大且缺陷所占像素较少的图像。

光学方案及缺陷图像获取

缺陷照片获取

本专利使用的是监督学习的深度学习技能，通过一个垂直缺陷屏幕的主相机和两个带有侧光源的斜视相机，得到三张缺陷屏幕图像。
https://i-blog.csdnimg.cn/direct/ccbebe2a7fec444aa132761efd63a4fb.png
照片预处理

对于通过拍照获取的缺陷图片，在送入AI神经网络进行练习前，需要对图片进行一些预处理工作，包括图片裁剪和图片数据集增强等。
图片裁剪缩放：使用相机拍摄得到的缺陷图像除了显示器屏幕部分外还包括一些附近配景部分，这部分图像是不需要的，大概会对AI神经网络的练习及检测带来影响，且多出来的图像也会增长AI神经网络练习和测试时的时间成本以及GPU显存消耗，因此需要通过裁剪的方式去除这些无用图像，只保留原图片内容。并使原图和拍照图的长宽为2的次方，便于后期AI运算。
数据集增强：AI神经网络练习时需要大量的样本图片，通过从大量样本中学习到的数据特征进行建模，有些时间数据集并不是那么充实且通过拍照增长数据集需要额外的时间人力成本，需要通过数据增强方式人为“增长”样本数据，数据增强包括对照片进行旋转、偏移、镜像、裁剪、拉伸、灰度变换等图像操纵，使得新图片和原图“看起来”不一样，肯定意义上生成了新的图片，扩充了数据集。

基于深度学习多图像融合的神经网络

本专利MIFT-Net神经网络分为图像特征提取的Backbone(左侧)，不同图像间特征对齐及融合的留意力模块(中央)以及作为缺陷检测的Detect Head模块(右侧)。
https://i-blog.csdnimg.cn/direct/b6fed71da63a41228b4245d2a69c0d44.png
整个神经网络分为三部分，左边为图像特征提取模块，通过三台相机拍照得到三张图像，一张主视图，两张侧视图，通过Backbone提取各自的图像特征信息；将三张图像的特征信息送入中央的特征对齐融合模块，使用多头混淆留意力机制融合三张图像各自的特征信息并进行特征对齐，然后通过通道叠加以及卷积操纵，生成统一的高维特征信息空间，送入检测头模块；右边的检测头模块根据得到的统一特征信息，进行后续各类缺陷检测。
特征提取Backbone

https://i-blog.csdnimg.cn/direct/dbcee0d625964a0caf8c8ae8b5621bc8.png
通过多次使用基于金字塔FPN的图像信息提取模块+区域像素留意力模块RPA+特征压缩模块FS+留意力Dropout模块，从三张图像中得到各自的特征信息。
金字塔特征提取模块FPN

FPN通过对输入不同层特征进行多次提取及融合，利用各层特征图的多角度信息，更好的提取输入图像的全局特征信息，而且通过Res毗连在深层特征中直接参加浅层特征信息，克制了特征信息消散的弊端。
https://i-blog.csdnimg.cn/direct/a4076734c68e4afe8807e786b38f1449.png
输入特征图F1经过4个卷积块生成4个分层特征(F2-F5)，每个分层特征巨细为前一层的一半，通道是前一层的两倍，F5特征层得到中央效果特征层D5。
D5进过双线性插值得到R5，使得特征巨细尺寸和F4相同，R5再和F4按特征通道进行叠加，再进过一个1×1卷积块进行通道间特征融合，之后再和R5进行加和操纵，再进过一个1×1卷积块中央效果特征层D4。
D4和R5进行加和操纵，进过双线性插值得到R4，使得特征巨细尺寸和F3相同，R4再和F3按特征通道进行叠加，再进过一个1×1卷积块进行通道间特征融合，之后再和R4进行加和操纵，再进过一个1×1卷积块中央效果特征层D3。
D3和R4进行加和操纵，进过双线性插值得到R3，使得特征巨细尺寸和F2相同，R3再和F2按特征通道进行叠加，再进过一个1×1卷积块进行通道间特征融合，之后再和R3进行加和操纵，再进过一个1×1卷积块中央效果特征层D2。
D2进过双线性插值得到R2，使得特征巨细尺寸和F1相同，R2再和F1按特征通道进行叠加，再进过一个1×1卷积块进行通道间特征融合，之后再和R2进行加和操纵，再进过一个1×1卷积块中央效果特征层D1。
D1和R2进行加和操纵，得到终极效果R1，R1的特征尺寸和F1相同，通道数比F1多。
区块像素留意力模块RPA

RPA给输入特征的每块区域像素分配一个权重，使得神经网络对于图像特征明显的区域更加关注。输入特征(B,C,H,W)先经过一个BatchNorm-DefConv-ReLU进行通道压缩为(B,C*r,H/2,W/2)，r<1；再经过一个BatchNorm-DefConv还原成(B,C,H/4,W/4)，通过SigMoid函数生成每个像素值的权重，末了使用双线性插值还原成(B,C,H,W),和原输入特征一对一相乘相乘。
https://i-blog.csdnimg.cn/direct/d0a37c402e5d463fa41eda58041485e3.png
Feature Squeeze

使用卷积对上一层输出的特征图进一步提取缺陷特征信息，并压缩特征图的长宽。
https://i-blog.csdnimg.cn/direct/3367d3ec1bcd4cf7aa92442df01f2807.png
留意力Dropout

基于留意力的Dropout方法，不同于一般Dropout使用的随机方式，利用留意力保留更重要的特征信息，使得神经网络的性能和泛化性更好。
对输入特征经过两个批次归一化+可变性卷积+ReLU/SigMiod，生成和原特征形同尺寸的留意力矩阵，根据留意力矩阵的值，将留意力小于阈值的原特征矩阵对应位置神经元置零。
https://i-blog.csdnimg.cn/direct/b4b5f1042b3b46d185014ed58a709be5.png
多图像特征融合模块

通过使用多头(N个)混淆留意力机制，每个混淆留意力头里多次(k次)使用基于Deformable-Attention的自留意力机制+基于Deformable-Attention的互留意力模块+加和/标准化操纵，对齐并融合三张不同图像的特征信息，再将各个混淆留意力头的输出通过一个通道叠加以及卷积操纵，得到统一的特征信息空间。
多头留意力机制可以或许从不同角度得到图像的更全面信息，Cross Attention模块可以对多张图像特征进行特征信息的对齐以及融合，Deformable Attention模块通过只关注某个特征点附近有限个特征点的信息而计算所有特征点的信息，更加关注和该特征点关联大的其他特征点，有用解决缺陷图像大分辨率带来的计算量激增以及小尺寸缺陷难以检测的题目。
留意力机制模块

输入三组特征编码得到三组Query和Value值，然后两两分组，使用Query值互相进行基于Deformable-Attention的互留意力计算，将效果进行通道叠加再使用1×1卷积进行通道特征融合，得到三组Z值。
https://i-blog.csdnimg.cn/direct/632e0a4c4045479ab7d83c8f981ec12e.png
混淆留意力机制

输入三个图像特征编码得到三组Query和Value值，这三组（Q,V）首先各自进行基于Deformable-Attention的自留意力计算，得到各自的Z值，再编码得到三组新的Query和Value值，然后两两分组，各自进行互留意力计算，得到三组新的Z值，和之前的Z值进行加和操纵并标准化。
效果送入下一次留意力模块，把每次加和操纵并标准化的效果进行按通道叠加，并把每次留意力机制的输出效果进行加和操纵。
https://i-blog.csdnimg.cn/direct/501f39df83944ae5a03515397156f5a9.png
生成统一特征信息空间

将留意力模块的各个输出特征效果进行通道叠加和卷积处理，得到一个统一的特征信息空间，对齐并融合了三张原始图像各自的缺陷特征信息，得到整张显示屏的整体信息，供下一步检测处理。

Detect HEAD

得到整张显示屏多图像的统一特征信息空间后，就可以进行显示屏缺陷检测，本专利该模块属于开放性部分，可以用于不同的缺陷检测任务，包括分类网络、目的检测网络、分割网络等，同一个检测任务也可以使用各种不同检测头。
本专利通过对缺陷显示屏使用不同的光学方案进行多次拍照，得到不同拍摄角度和拍摄方式的三张不同图像，使用深度学习神经网络的方式得到三张图像的特征信息，并加以特征对齐和融合，形成一个统一的特征信息空间，全面包含了三张图像中的不同信息，得到更加全面完整的缺陷特征，使得后期的检测任务可以使用三张图像中的多个角度丰富的缺陷信息，使得缺陷检测精度大大进步，也克制了传统多图像算法需要对各张图像单个处理的弊端，消除了单张图像中缺陷信息不完整不丰富的缺点，以及免去了传统算法后期需要进行多张图像特征对齐的贫困。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

基于深度学习多图像融合的屏幕缺陷检测方案