如今,环境已经大不雷同。影戏和电视行业对使用机器学习方法对真实表演举行后期修改表现出了浓厚的爱好,人工智能助力的“事后完善主义”甚至最近也受到了一些批评。
为了满足(大概可以说创造了)这种需求,图像和视频合成研究范畴已经推出了一系列项目,这些项目提供了对面部捕获的“局部编辑”,而不是直接更换。这类项目包括 Diffusion Video Autoencoders、Stitch it in Time、ChatFace、MagicFace 和 DISCO 等。
作者在多种最近的编辑方法上评估了他们的方法,并报告了在旧数据集以及更新的攻击向量上的一致性能提拔。
“通过使用基于 AU 的特性来引导通过掩码自编码器(MAE)学习的视频表现,我们的方法有用地捕获了对检测微妙面部编辑至关紧张的局部变化。”
“这种方法使我们可以或许构建一个同一的潜在表现,它编码了局部编辑和更广泛的面部视频中的变化,为深度伪造检测提供了一个全面且可顺应的解决方案。”
这篇名为《使用动作单位引导的视频表现检测局部深度伪造操纵》的新论文由印度理工学院马德拉斯分校的三位作者撰写。
方法
与 VideoMAE 接纳的方法一致,新方法首先对视频举行面部检测,并采样以检测到的面部为中心的匀称隔断的帧。然后将这些帧划分为小的 3D 分区(即时间启用的补丁),每个分区捕获局部空间和时间细节。
新方法的架构。输入视频颠末面部检测处理,以提取匀称隔断的、以面部为中心的帧,然后将这些帧划分为“管状”补丁,并通过编码器传递,该编码器融合了来自两个预训练预使命的潜在表现。终极的向量被分类器用来判定视频是真实的照旧伪造的。
每个 3D 补丁包含来自少量一连帧(比方 2 帧)的固定大小的像素窗口(比方 16×16)。这使得模型可以或许学习短期的运动和表情变化——不仅仅是面部的表面,还有它是怎样运动的。
在传递到编码器之前,补丁被嵌入并举行位置编码,该编码器旨在提取可以或许区分真实与伪造的特性。
作者认可,当处理微妙的操纵时,这尤其困难,因此他们通过构建一个联合了两种独立学习表现的编码器来解决这个问题,使用交叉留意力机制将它们融合。这旨在产生一个更敏感且更具泛化的特性空间,用于检测局部编辑。
预使命
第一种表现是一个颠末掩码自编码使命训练的编码器。将视频划分为 3D 补丁(其中大部分被潜伏),然后编码器学习重修缺失的部分,迫使其捕获紧张的时空模式,比方面部运动或随时间的一致性。
然而,论文指出,这本身并不能提供足够的灵敏度来检测细粒度的编辑,因此作者引入了第二个颠末训练以检测面部动作单位(AUs)的编码器。对于这个使命,模型学习从部分掩码的输入中重修每帧的密集 AU 图。这促使它专注于局部肌肉运动,许多微妙的深度伪造编辑就发生在这里。
更多的面部动作单位(FAUs 或 AUs)示例。来源:EIA Group
两个编码器颠末预训练后,使用交叉留意力将它们的输出联合起来。而不是简单地合并这两组特性,模型使用基于 AU 的特性作为查询,引导对从掩码自编码中学习到的时空特性的留意力。现实上,动作单位编码器告诉模型该看那里。
结果是一个融合的潜在表现,旨在捕获更广泛的运动背景和局部表情级别的细节。这个组合的特性空间随后用于终极的分类使命:推测视频是真实的照旧被操纵过的。
数据和测试