种地 发表于 2025-4-14 10:39:07

探索在视频深度伪造中的渺小的表情变化或对特定面部特性的小改动检测方法

概述

2019 年,美国众议院议长南希·佩洛西成为了一次针对性的、技术含量相对较低的“深度伪造”式攻击的目标。真实的佩洛西视频被编辑,让她看起来像是喝醉了酒。这一不真实的变乱在真相大白之前被分享了数百万次,而且在一些人没有关注后续报道的环境下,大概已经对她的政治资本造成了不可挽回的损害。
只管这种误导性的视频只必要举行一些简单的音视频编辑,而不是使用任何人工智能技术,但它仍旧是一个关键的例子,展示了对真实音视频输出举行渺小改动大概产生的毁灭性影响。
其时,深度伪造范畴主要由 2017 年末首次表态的基于自编码器的面部更换系统主导,这些系统的质量自那以后并没有明显提拔。这些早期系统很难创造出这种小但紧张的改动,大概追求现代研究方向中的表情编辑等技术:
https://i-blog.csdnimg.cn/img_convert/3ed3605ef24b50b1cef8a68536836aae.jpeg
行业现状

如今,环境已经大不雷同。影戏和电视行业对使用机器学习方法对真实表演举行后期修改表现出了浓厚的爱好,人工智能助力的“事后完善主义”甚至最近也受到了一些批评。
为了满足(大概可以说创造了)这种需求,图像和视频合成研究范畴已经推出了一系列项目,这些项目提供了对面部捕获的“局部编辑”,而不是直接更换。这类项目包括 Diffusion Video Autoencoders、Stitch it in Time、ChatFace、MagicFace 和 DISCO 等。
https://i-blog.csdnimg.cn/img_convert/2eca03ffb691f8378b4cf856afc5757d.jpeg
新问题与新挑衅

然而,使这些编辑成为大概的技术发展速度远远凌驾了检测它们的方法。在文献中出现的几乎所有深度伪造检测方法都在用过时的数据集追逐过时的深度伪造方法。直到本周,还没有一种方法可以或许解决人工智能系统在视频中创建小而有针对性的局部改动的潜在威胁。
如今,来自印度的一篇新论文弥补了这一空白,提出了一种可以或许识别通过基于人工智能技术举行编辑(而不是更换)的面部的系统:
https://i-blog.csdnimg.cn/img_convert/e3e3d8eff84b8134df06bbbe5a5b47b0.jpeg
该系统旨在识别涉及微妙、局部面部操纵的深度伪造,这是一种被忽视的伪造类别。该方法不是专注于全局不一致性或身份不匹配,而是针对渺小的表情变化或对特定面部特性的小改动。
该方法使用了面部动作编码系统(FACS)中的动作单位(AUs)分隔符,该系统定义了面部的 64 个大概的可变地区,这些地区共同构成了表情。
https://i-blog.csdnimg.cn/img_convert/462166ec40ea83d2419177c3e0d4745b.jpeg
作者在多种最近的编辑方法上评估了他们的方法,并报告了在旧数据集以及更新的攻击向量上的一致性能提拔。
“通过使用基于 AU 的特性来引导通过掩码自编码器(MAE)学习的视频表现,我们的方法有用地捕获了对检测微妙面部编辑至关紧张的局部变化。”
“这种方法使我们可以或许构建一个同一的潜在表现,它编码了局部编辑和更广泛的面部视频中的变化,为深度伪造检测提供了一个全面且可顺应的解决方案。”
这篇名为《使用动作单位引导的视频表现检测局部深度伪造操纵》的新论文由印度理工学院马德拉斯分校的三位作者撰写。
方法

与 VideoMAE 接纳的方法一致,新方法首先对视频举行面部检测,并采样以检测到的面部为中心的匀称隔断的帧。然后将这些帧划分为小的 3D 分区(即时间启用的补丁),每个分区捕获局部空间和时间细节。
https://i-blog.csdnimg.cn/img_convert/651b3d3964485690f427c984c69bae62.jpeg
新方法的架构。输入视频颠末面部检测处理,以提取匀称隔断的、以面部为中心的帧,然后将这些帧划分为“管状”补丁,并通过编码器传递,该编码器融合了来自两个预训练预使命的潜在表现。终极的向量被分类器用来判定视频是真实的照旧伪造的。
每个 3D 补丁包含来自少量一连帧(比方 2 帧)的固定大小的像素窗口(比方 16×16)。这使得模型可以或许学习短期的运动和表情变化——不仅仅是面部的表面,还有它是怎样运动的。
在传递到编码器之前,补丁被嵌入并举行位置编码,该编码器旨在提取可以或许区分真实与伪造的特性。
作者认可,当处理微妙的操纵时,这尤其困难,因此他们通过构建一个联合了两种独立学习表现的编码器来解决这个问题,使用交叉留意力机制将它们融合。这旨在产生一个更敏感且更具泛化的特性空间,用于检测局部编辑。
预使命

第一种表现是一个颠末掩码自编码使命训练的编码器。将视频划分为 3D 补丁(其中大部分被潜伏),然后编码器学习重修缺失的部分,迫使其捕获紧张的时空模式,比方面部运动或随时间的一致性。
https://i-blog.csdnimg.cn/img_convert/ac6d77e9e6b9f8cd93b6cdaa8bc4d4a3.jpeg
然而,论文指出,这本身并不能提供足够的灵敏度来检测细粒度的编辑,因此作者引入了第二个颠末训练以检测面部动作单位(AUs)的编码器。对于这个使命,模型学习从部分掩码的输入中重修每帧的密集 AU 图。这促使它专注于局部肌肉运动,许多微妙的深度伪造编辑就发生在这里。
https://i-blog.csdnimg.cn/img_convert/4d3fe3f4f2686732a84a14cfcd57b220.jpeg
更多的面部动作单位(FAUs 或 AUs)示例。来源:EIA Group
两个编码器颠末预训练后,使用交叉留意力将它们的输出联合起来。而不是简单地合并这两组特性,模型使用基于 AU 的特性作为查询,引导对从掩码自编码中学习到的时空特性的留意力。现实上,动作单位编码器告诉模型该看那里。
结果是一个融合的潜在表现,旨在捕获更广泛的运动背景和局部表情级别的细节。这个组合的特性空间随后用于终极的分类使命:推测视频是真实的照旧被操纵过的。
数据和测试

实现

作者使用基于 PyTorch 的 FaceXZoo 面部检测框架对输入视频举行预处理,从每个剪辑中获取 16 个以面部为中心的帧。上述预使命随后在 CelebV-HQ 数据集上举行训练,该数据集包含 35,0
00 个高质量的面部视频。
https://i-blog.csdnimg.cn/img_convert/2fa5464061aefc240836cad6067b6eec.jpeg
一半的数据示例被掩码,迫使系统学习一般原则,而不是对源数据过拟合。
对于掩码帧重修使命,模型被训练以使用 L1 损失 推测视频帧的缺失地区,最小化原始内容与重修内容之间的差异。
对于第二个使命,模型被训练以天生 16 个面部动作单位的地图,每个单位代表眉毛、眼睑、鼻子和嘴唇等地区的微妙肌肉运动,同样由 L1 损失监督。
颠末预训练后,两个编码器被融合并在 FaceForensics++ 数据集上举行微调,该数据集包含真实和被操纵的视频。
https://i-blog.csdnimg.cn/img_convert/4fca6c233a782e121d3cfb155ab0a5c7.jpeg
为了应对 类别不平衡,作者使用了 Focal Loss(交叉熵损失 的一种变体),在训练期间强调更具挑衅性的示例。
所有训练都在单个 RTX 4090 GPU 上举行,该 GPU 拥有 24Gb 的 VRAM,批量大小为 8,举行 600 个周期(对数据的完整审查),使用 VideoMAE 的预训练检查点来初始化每个预使命的权重。
测试

对多种深度伪造检测方法举行了定量和定性评估:FTCN、RealForensics、Lip Forensics、EfficientNet+ViT、Face X-Ray、Alt-Freezing、CADMM、LAANet 以及 BlendFace 的 SBI。在所有环境下,这些框架的源代码都是可用的。
测试会集在局部编辑的深度伪造上,只有源剪辑的一部分被修改。使用的架构包括 Diffusion Video Autoencoders(DVA)、Stitch It In Time(STIT)、Disentangled Face Editing(DFE)、Tokenflow、VideoP2P、Text2Live 和 FateZero。这些方法接纳了多种方法(比方 DVA 使用扩散,STIT 和 DFE 使用 StyleGAN2 等)。
作者指出:
“为了确保对不同面部操纵的全面覆盖,我们纳入了各种面部特性和属性编辑。对于面部特性编辑,我们修改了眼睛大小、眼睛与眉毛之间的隔断、鼻子比例、鼻子与嘴巴之间的隔断、嘴唇比例和脸颊比例。对于面下属性编辑,我们改变了微笑、愤怒、厌恶和悲伤等表情。”
“这种多样性对于验证我们模型在广泛局部编辑上的鲁棒性至关紧张。总共,我们为上述每种编辑方法天生了 50 个视频,并验证了我们方法在深度伪造检测方面的强盛泛化本事。”
旧的深度伪造数据集也被包括在测试中,分别是 Celeb-DFv2(CDF2)、DeepFake Detection(DFD)、DeepFake Detection Challenge(DFDC)和 WildDeepfake(DFW)。
评估指标为 曲线下面积(AUC)、平均精度 宁静均 F1 分数。
https://i-blog.csdnimg.cn/img_convert/787a2a9906979ca89137c92f09cb0940.jpeg
作者还提供了一个局部操纵视图的视觉检测比较(由于篇幅有限,此处仅部分复制):
https://i-blog.csdnimg.cn/img_convert/03155c1f9b0165811b99ae1ab2bb6493.jpeg
真实视频颠末三种不同的局部操纵以产生在视觉上与原始视频相似的伪造品。此处展示了代表性帧以及每种方法的平均伪造检测分数。只管现有的检测器在这些微妙的编辑上挣扎,但所提出的模型始终给出了较高的伪造概率,表明其对局部变化的敏感性更高。
研究职员评论道:
“现有的最先辈的检测方法(LAANet、SBI、AltFreezing 和 CADMM)在最新的深度伪造天生方法上的性能明显下降。当前最先辈的方法的 AUC 低至 48% 至 71%,表现出它们对最近的深度伪造的泛化本事较差。”
“另一方面,我们的方法表现出强盛的泛化本事,AUC 在 87% 至 93% 之间。在平均精度方面也有类似的趋势。如图所示,我们的方法在标准数据集上的表现也不停很高,AUC 凌驾 90%,并且与最近的深度伪造检测模型具有竞争力。”
https://i-blog.csdnimg.cn/img_convert/06628e07638fbbc580b2fcc958ece228.jpeg
作者指出,这些末了的测试涉及的模型大概被认为是过时的,并且是在 2020 年之前引入的。
为了更详细地展示新模型的表现,作者在论文末了提供了一个详细的表格,此处仅部分复制:
https://i-blog.csdnimg.cn/img_convert/15e4cd5fded952df511a3388ed5a97ba.jpeg
在这些示例中,真实视频颠末三种局部编辑以产生在视觉上与原始视频相似的伪造品。这些操纵的平均置信度分数表明,所提出的方法比其他领先方法更可靠地检测到了伪造品。请参阅源 PDF 的末了一页以获取完整结果。
作者认为,他们的方法在检测局部编辑方面的置信度分数凌驾了 90%,而现有的检测方法在雷同使命上的表现低于 50%。他们将这一差距视为他们方法的敏感性和泛化本事的证据,以及当前技术在处理这种微妙的面部操纵时面临的挑衅。
为了评估模型在现实世界条件下的可靠性,并按照 CADMM 的方法,作者测试了其在颠末常见失真处理的视频上的表现,包括对饱和度和对比度的调解、高斯含糊、像素化以及块状压缩伪影,以及加性噪声。
结果表现,在这些干扰下,检测精度在大多数环境下保持稳定。唯一明显的下降发生在加入高斯噪声时,这导致了性能的适度下降。其他改变影响甚微。
https://i-blog.csdnimg.cn/img_convert/77aa86ffeb956a6f1415f9e69cc6bc62.jpeg
检测精度在不同视频失真下的变化表示图。新方法在大多数环境下保持稳定,AUC 只有小幅下降。最明显的下降发生在引入高斯噪声时。
这些发现,作者认为,表明该方法检测局部操纵的本事不轻易被视频质量的典型退化所干扰,支持其在现实设置中大概的鲁棒性。
结论

人工智能操纵在公众意识中主要以传统的深度伪造形式存在,即一个人的身份被强加到另一个人身上,后者大概正在从事与身份所有者原则相悖的举动。这种观念正在渐渐更新,以认可新型视频深度伪造的本事,以及潜在扩散模型(LDMs)的一般本事。
因此,可以公道地预期,新论文关注的这种局部编辑大概不会引起公众的留意,直到发生类似佩洛西变乱的迁徙变化点,因为人们被更轻易引起轰动的话题(如视频深度伪造敲诈)分散了留意力。
只管如此,正如演员尼古拉斯·凯奇不停对后期制作过程“修改”演员表演的大概性表现担心一样,我们也应该鼓励对这种“微妙”的视频调解有更高的认识——尤其是因为我们天生对微小的面部表情变化非常敏感,而且情境可以明显改变小的面部动作的影响(考虑在葬礼上微笑的破坏性影响,比方)。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 探索在视频深度伪造中的渺小的表情变化或对特定面部特性的小改动检测方法