熊熊出没 发表于 2024-9-24 04:23:06

AIGC论文阅读——[Visual Speech-Aware Perceptual 3D Facial Expression R

AIGC论文阅读——

论文地址:https://arxiv.org/abs/2207.11094
代码地址:https://github.com/filby89/spectre
https://i-blog.csdnimg.cn/blog_migrate/cf84573c13f21b0c3d51547a4ba6616c.png#pic_center
前言(个人总结)

本文最主要的贡献是提出的loss约束【可重点查阅】,基于前人模子的基础上改进,分析不同loss对结果的影响效果,对于AIGC项目的练习很有启发。模子的解释较多,有利于后续自己练习分析。
目前3D重修存在的标题

1、嘴部地区的形状和运动的重修中的伪影通常很严重(它们与语音音频不能很好地匹配)
2、没有利用人类面部固有的丰富动态信息。即使是包括某种动态建模来重修面部视频的少数方法,也没有明确地模拟嘴部运动和清晰语音之间的强相关性。
3、大多数方法利用来自面部对齐方法预测的地标的弱二维监督作为指导情势,固然这些标志可以对面部形状进行粗略估计,但它们无法正确表示高度变形的嘴部地区的表达细节。人类嘴巴的形状在感知上与语音相关,并且 3D 说话头部的真实感与说出的句子精密相关。因此,3D 模子在发出双唇辅音(即 /m/、/p/ 和 /b/)时不会闭上嘴唇,大概在说出圆唇元音时不会嘴唇变圆(比方 /o/ /u/) 的感知天然度较差。
解决方法

本文目的

为了降服上述限制,提出了一种用于 3D 嘴巴心情的视觉语音感知感知重修的方法。对视频中说话的人进行正确的 3D 重修,保留人类以为与语音相对应的嘴部心情和动作。
方案

1、提出了第一种用于 3D 嘴巴心情的视觉语音感知感知重修的方法。
2、提出“唇读”损失,该损失指导拟合过程,以便从 3D 重修的说话头部引发的感知类似于原始视频片段的感知。与传统地标损失,乃至直接 3D 监督相比,唇读损失更适合嘴部运动的 3D 重修。别的,所设计的方法不依靠于任何文本转录或相应的音频,使其非常适合在未标记的数据会合进行练习。
3、进行了广泛的客观和主观(用户研究)评估,证明重修的头部的感知显着增加。我们还建议利用各种唇读指标作为重修 3D 头部中人类语音感知的客观评估。
设计方案

基于先前的两个框架

DECA:https://arxiv.org/pdf/2012.04012
EMOCA :https://arxiv.org/pdf/2204.11312
https://i-blog.csdnimg.cn/blog_migrate/078fbe38a04bde02e9dee3df90a156bb.png#pic_center
基于最先辈的DECA框架,采用了DECA论文中的符号。给定一个输入图像I,一个粗编码器(一个ResNet50 CNN)共同预测辨认参数β、颈部姿势和下巴θ、表达参数ψ、反照率α、光照I和相机(缩放和转换)c。(这些参数是FLAME 3D人脸模子参数的子集)之后,利用这些参数来渲染预测的3D人脸。DECA还包括一个细节编码器,该编码器预测了与紫外线位移图相关的潜在向量,该地图模拟了高频个人特定细节,如皱纹。
https://i-blog.csdnimg.cn/blog_migrate/574221f1c488df34065c04c229c67edc.png#pic_center
EMOCA进一步建立在DECA的基础上,增加了一个额外的表达编码器(ResNet50),用于预测表达向量ψ,从而使重修面部的感知情绪与原始图像相似。我们利用这两个作品作为出发点,并专注于设计一个架构,该架构可以增加输入视频的感知心情,专注于嘴巴地区,从而实现传神的发音运动。EMOCA 专注于保留图像中的情感信息,而本文的工作则专注于正确重修与语音产生相对应的嘴巴和嘴唇的形成。
参数集合

根据FLAME 3D人脸模子命名法,本文将估计参数分为两个不同的集合:
Rigid & Identity parameters

借用DECA的粗编码器(一个ResNet50 CNN)预测每个图像I的身份β、颈部姿势θ、反照率α、光照率l和相机c
Expression & Jaw parameters

与输入序列相对应的Expression ψ和Jaw pose θ参数由一个额外的“感知”CNN编码器来预测,这些参数明确地控制着FLAME框架下的嘴部心情和运动。采用了轻量级的MobileNet v2架构,但也在其输出中插入了一个时间卷积核,以便在输入序列中模拟嘴部运动和面部心情的时间动态,减少体系的盘算开销。
Loss 约束

通过利用建议的损失集来学习一组得当的“方向”和“约束”
Perceptual Expression Loss

感知表达损失:感知编码器的输出与身份、反照率、相机和照明的预测一起利用,以便区分地渲染一系列纹理3D网格,这些网格对应于原始输入视频。然后,将输入视频和重修的3D网格输入到情感辨认网络(借用EMOCA)中,并获得两个特性向量序列。然后,我们通过尝试最小化两个特性向量序列之间的距离来应用感知表达损失Lem。
即使情绪辨认网络被练习来预测情绪,它也可以老实地保留一组有用的面部特性。因此,如许的损失负责学习一样平常的面部心情,可以或许模拟情绪,从而促进衍生重修的真实感。值得注意的是,这种损失对眼睛产生了积极的影响,导致对闭眼、皱眉动作等的更老实的估计。
Perceptual Lip Movements Loss

感知嘴唇运动损失:感知表达损失不能保留有关嘴部的足够详细信息,因此,需要额外的与嘴部有关的丧失。我们不是只依靠利用2D地标进行弱监督的几何损失,而是利用额外的感知损失,指导输出颚和心情系数来捕捉嘴部运动的复杂性。在提取的2D地标中检测到的不正确性进一步突出了这种感知嘴巴导向损失的必要性。
利用了在LRS3 (Lip Reading in the Wild 3)数据集上练习过的网络,如下图**【在这里可以尝试更换成syncnet模子看一下效果怎样】**
https://i-blog.csdnimg.cn/blog_migrate/5f0eea6baa9fd0b228d6995c68164829.png#pic_center
它将嘴巴附近裁剪的灰度图像作为输入序列,并输出预测的字符序列。该网络利用连接时间分类(Connectionist Temporal Classification, CTC)损失和注意力相联合的方法进行了练习。模子架构包括一个3D卷积核,随后是一个2D ResNet18,一个12层的共形器,末了是一个输出预测序列的变压器解码器层。
目标:
最小化原始图像序列和输出图像序列之间语音感知运动的感知距离。为此,我们采用可微分渲染的图像序列,然后利用预测的路标在嘴部地区附近裁剪它们。末了,我们从唇读网络的2D ResNet-18的输出中盘算相应的特性向量 。通过经验发现,CNN输出的特性更好地模拟了口腔的空间布局,而共形器输出的特性在很大程度上受到序列上下文的影响,并没有保留这种急需的空间布局。在盘算特性向量之后,我们将输入图像序列和输出渲染序列之间的感知唇读损失最小化,其中d是余弦距离,K是输入序列的长度。
https://i-blog.csdnimg.cn/blog_migrate/a444809819aefbe77f5114dde37e45cc.png#pic_center
初始实验包括基于现有唇读网络预测输出的CTC损失的显式唇读损失,给定句子的原始转录。尽管直观直观,但除了需要视频转录外,这种方法还有主要的缺点。首先,它有很大的盘算开销,因为整个句子应该马上处理。相比之下,所提出的方法只是对一连帧的子集进行采样,并尝试最小化提取的嘴部相关特性。
Geometric Constraints

几何约束:由于渲染图像和原始图像之间的域不匹配,尽管感知损失有助于保留感知的高级信息,但在某些情况下它们也容易产生伪影。这是可以预推测的;感知损失依靠于预练习的特定于任务的cnn,这些cnn不能以任何方式包管输入流形与真实图像相对应。
通过实施以下几何约束来指导练习过程:
我们通过对初始预测DECA参数的L2范数进行处罚来正则化表达式和下颌参数:
https://i-blog.csdnimg.cn/blog_migrate/29d746b0b4fe87aa6b5536fc420a3c0b.pnghttps://i-blog.csdnimg.cn/blog_migrate/9d99d2fa69eb5edd33cf0283f45997e2.png
利用如许的正则化方案,我们间接地强加了一些由DECA及其练习过程硬编码的约束。我们还在3D模子的鼻子、面部外貌和眼睛的地标与图像之间应用L1损失。
对于口腔地区,我们在口腔标志的内部距离之间采用了更宽松的L2相对损失。上述地标损失包括根据重修面部的预测2D地标与原始图像的2D地标之间的距离明确施加几何损失的替换方案。这种直接的损失可能导致错误的重修,正如增补质料中的溶解研究所夸大的那样,因为感知损失和2D地标损失通常是相互矛盾的。利用提出的相对地标损失版本可以保留急需的面部几何布局,而无需过于严格的限制感知损失的约束。
末了,用于练习的总损失,为
https://i-blog.csdnimg.cn/blog_migrate/fa510d020debc0faa3d6a4f4b2edb084.png
其中Lc包含前面所述的几何约束。
实验

客观结果

重修的3D面部心情与相应的真真相况之间的差异可能由与人的身份相对应的偏差主导,利用几何标准进行评估不愿定与人类对心情和嘴部运动的感知不相关。因此,我们通过在输出的渲染图像上应用预练习的唇读网络,客观地评估唇读度量的方法。
为了消除偏差,我们利用了与用于lipread损失的lipread模子不同的架构和预练习的lipread模子进行评估, AV-HuBERT。
我们报告了以下指标:
字符错误率(CER)和单词错误率(WER),以及Viseme错误率(VER)和Viseme-Word错误率(VWER),通过利用Amazon Polly音素到Viseme映射将预测和基本真实转录转换为Viseme获得。结果如表1所示。与其他方法相比,我们的方法在LRS3测试集以及TCDTIMIT和MEAD的跨数据评估中获得了更低的CER、WER和VER分数。在同一表中,我们还包括原始视频片段的结果,这些结果展示了所利用的唇读体系的“域间隙标题”(关于这方面的更多信息请参见讨论部分):预练习的模子已经被练习到初始图像,而没有渲染过程引入的可能的视觉退化。尽管如此,我们的方法通过正确编码语音感知特性,尽管缺少舌头和牙齿等关键特性,但仍显着进步了唇读性能。
https://i-blog.csdnimg.cn/blog_migrate/36958a0ea705006b32877bd200c0e763.png#pic_center
https://i-blog.csdnimg.cn/blog_migrate/b88d307eada9008f8526da07c84e923f.png#pic_center
主观结果

为了评估人类3D重修面部的真实感和感知,设计并进行了两项网络用户研究。为了减轻在LRS3练习集上练习并向用户展示来自其测试集的视频可能产生的任何数据集内偏差,对于这些研究,我们仅利用了来自MEAD和TCD-TIMIT数据集的视频。
第一项研究:发音的真实性对于这项研究,选择了一种偏好测试设计,通过向用户展示3D重修的面部配对,以及原始镜头,并要求他们在嘴部运动和发音方面选择最真实的一个。
创建了一个标题数据库由来自MEAD数据集的30个视频构成(21个是每个强度和情绪水平的情感视频,9个是中性的),以及来自TCD-TIMIT数据集的10个视频,并利用前面提到的5种方法(DAD, DECA, EMOCA, 3DDFAv2和我们的)进行3D重修。然后,向用户展示了两个随机排序的重修面部,每个都与原始镜头并列,并要求用户在嘴部运动和发音方面选择最传神的面部。每个用户从数据库中随机抽取了28个标题(每对7个标题——我们的vs其他的),总共有34个用户完成了这项研究。本次研究的结果如表2所示。我们可以看到,我们的方法显着优于全部其他方法(利用二项查验p < 0.01,利用Bonferroni方法进行多重比力调解)。3DDFAv2是最不受欢迎的方法,其次是DECA和EMOCA。结果清楚地夸大了从语音感知角度提出的方法的重要性,以及人类怎样更好地感知重修的口腔运动。
第二项研究:唇读在第二项研究中,研究人员向用户(与第一项研究相比,这组参与者是分开的)展示了一段静音视频,视频中一个人在用一种比力方法重修的3D说话头的情势说一个特定的单词,然后要求他们读唇读从4个不同的选项中找出要说的是哪个单词(多项选择)。为此,我们从MEAD和TCD-TIMIT数据会合裁剪了40个单个单词,涵盖了不同的唇形,并向每个用户提供了30个单词的随机子集(每个问卷中每种方法6个单词)。总共有31位用户完成了这项研究。分类结果如表b所示。有趣的是,我们的方法获得了与EMOCA和DAD相似的分数,尽管EMOCA并没有明确地对嘴颌进行建模。这表明,尽管我们的方法在发音方面显着更加真实,但正如第一个用户研究所支持的那样,在某些情况下,人类无法正确辨认单词,乃至在半错误发音的情况下,比方EMOCA中不切实际的夸张,足以区分特定的单词。增补质料中提供了带有视觉示例的每个单词分析。尽管正确率较低,但我们的体系在非专家实行唇读的挑战性任务中似乎略微优于比力的SoTA方法。
https://i-blog.csdnimg.cn/blog_migrate/d5aca0ac6f2dcc8fda63ea269ecdc065.png#pic_center
溶解实验

我们展示了有和没有地标几何约束的网络练习结果。我们可以看到,在某些情况下,完全去除几何约束并仅利用感知损失进行练习会导致眼睛,鼻子和嘴巴形状附近的伪像。
https://i-blog.csdnimg.cn/blog_migrate/37115deda45c14852be4258b9a233124.png#pic_center
讨论总结

牙齿和舌头的缺失也很重要,因为它们作为肺泡和牙辅音起着很大的作用。
感知损失假设原始图像和渲染图像属于同一个视觉“域”。尽管如此,这两个特性空间之间确实存在现实主义/范畴差距,可能导致不同等;这就是为什么我们需要有相对的地标。因此,地标的丢失和唇读的丢失有时会相互竞争:一方面,唇读试图进步说话头的感知,而地标,如果检测不正确通常会降低真实感。
另一方面,我们观察到,从阈值及更低的角度来看,唇读损失的减少通常会产生伪影;这就是为什么我们需要地标的约束来保留面部形状的真实感。别的,尽管我们的方法包括借用EMOCA的损失,但为了保留嘴外(比方眼睛)的面部心情,由于它仅在LRS3数据集(不包括情绪样本)上进行练习,因此在某些情况下,结果通常不包括EMOCA中存在的情绪强度。别的,请注意,固然DECA和EMOCA通过盘算详细的UV位移图来进行详细的细化,该位移图模拟了人的具体细节,如皱纹,但我们的方法不包括这一步。末了,固然正如我们已经说过的,我们的方法不需要文本转录或音频,但我们相信,如果数据会合存在这些模式,可以利用它们来进步总体感知。
结论
我们提出了第一种3D说话头的视觉语音感知重修方法。我们的方法不依靠于文本转录或音频;相反,我们采用了一种“唇读”损失,它指导练习过程,以增加对嘴的感知。我们广泛的主观和客观评估已经证实,3D重修的结果显着优于仅依靠于嘴部运动的几何损失的对应方法,以及利用直接3D监督的方法。我们相信,我们已经朝侧重修真正传神的说话头迈出了重要的一步,我们不但关注事物的纯粹基于几何的方面,而且还关注人类的感知。
模子效果


   true_grid


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: AIGC论文阅读——[Visual Speech-Aware Perceptual 3D Facial Expression R