论文链接:https://arxiv.org/abs/2502.10841
项目链接:https://skyworkai.github.io/skyreels-a1.github.io/
Demo链接:https://www.skyreels.ai/
开源地址:https://github.com/SkyworkAI/SkyReels-A1
https://github.com/SkyworkAI/SkyReels-V1
亮点直击
- 提出了SkyReels-A1,一种用于肖像动画的全新框架,接纳DiT(扩散Transformer)架构,以提升运动通报精度、身份保存和时间划一性的保真度。该框架结合了基于心情标志点的动态条件模块,以及连接视觉-文本语义空间的跨模态对齐机制。
- 分阶段的训练方法被计划用于逐步优化运动-心情相关性以及主体特定特性的稳定性。
- 通过一系列全面的实行评估了SkyReels-A1的性能,结果表明其能够天生高效的结果,并展现出对各种组合变革的无缝适应性。末了,为了支持进一步的研究和行业应用,代码和演示质料均已公开提供。
总结速览
解决的问题
- 身份失真:现有方法在动画天生过程中难以保持人物身份的稳定性,导致身份信息泄露或扭曲。
- 背景不稳定:动画天生时背景容易出现抖动或不划一的征象。
- 面部心情不真实:特别是在仅头部动画的场景中,面部心情缺乏真实感。
- 全身动画的挑衅:当动画扩展到全身时,现有方法容易产生视觉伪影或不自然的动作。
- 身份与运动融合的困难:现有方法难以在保持身份划一性的同时,实现精致的心情和动作天生。
提出的方案
- 基于视频扩散Transformer(DiT)的框架:利用DiT的强盛天生能力,提升面部运动通报的精度、身份保存和时间划一性。
- 心情感知条件模块:通过心情引导的标志点输入驱动连续视频天生,增强心情与动作的关联性。
- 面部图像-文本对齐模块:深度融合面部特性与运动轨迹,强化身份划一性。
- 多阶段训练计谋:逐步优化心情与运动的相关性,同时确保身份稳定再现。
- 统一潜在空间建模:在单一潜在空间中联合建模面部细节和全身动态,解决身份漂移和背景不划一问题。
应用的技术
- 视频扩散Transformer(DiT):利用其强盛的天生能力和时间划一性建模能力。
- 心情感知标志点序列:作为条件输入,驱动精致的心情天生。
- 图像-文本对齐技术:增强面部特性与运动轨迹的融合。
- 多阶段训练范式:分阶段优化姿势准确性、身份稳定性和运动真实性。
- 模块化计划:便于集成到及时视频编辑系统和个性化假造化身平台。
达到的效果
- 高质量动画天生:天生高保真、富有表现力的肖像动画,适应多样化的身材比例。
- 身份划一性:在动画过程中保持人物身份的完整性,避免身份失真。
- 自然的心情与动作:实现精致的面部心情和自然的全身动作,提升动画的真实感。
- 广泛的实用性:实用于假造化身、远程通讯、数字媒体天生等多种应用场景。
- 优于现有方法:在定量评估和用户研究中表现优异,特别是在处理复杂剖解结构和微心情方面。
- 模块化与易集成性:便于集成到卑鄙应用中,如及时视频编辑和个性化假造化身平台。
方法
SkyReels-A1框架概述
给定输入视频序列和参考肖像图像,从视频中提取心情感知的面部标志点,这些标志点作为运动描述符,用于将心情通报到肖像上。本文的方法基于DiT(扩散Transformer)的条件视频天生框架,将这些心情感知的面部标志点直接集成到输入潜在空间中。与先前的研究划一,接纳了在VAE(变分自编码器)架构中构建的姿态引导机制。该组件将心情感知的面部标志点编码为DiT框架的条件输入,从而使模子能够捕获关键的低维视觉属性,同时保持面部特性的语义完整性。
心情感知关键点
本文为肖像动画引入了一种雷同的基于面部关键点的运动条件输入。精准的面部心情运动表征是实现富有表现力的肖像动画的基础,它能够捕获人类情感和微心情的细微变革,从而明显提升动画头像的真实感和情感共鸣。现在的扩散模子方法主要在训练过程中使用 2D 面部关键点 作为运动表征,但这类方法存在关键限制:
- 2D 关键点的推理依赖性 —— 由于推理阶段仍旧依赖 2D 关键点,目标心情与参考肖像之间容易出现错位,导致 心情不匹配 和 身份走漏伪影。
- 3D 关键点提取的精度不足 —— 现有方法使用 MediaPipe 等第三方工具从视频序列中提取 3D 关键点,但这些方法每每缺乏捕获细粒度心情细节和复杂面部动态的精度,尤其是在 非正面视角 和 极度心情 情况下。
为了解决上述问题,本文提出了 3D Facial Expressions,一个集成神经渲染模块的框架,以提升重建面部心情的精度与真实感。不同于依赖可微分渲染(differentiable rendering)的传统方法,我们用 神经渲染机制 取代这一组件,使得模子能够更高效地学习,并具备更强的泛化能力,适应多样的面部心情。该架构能够提取 高精度 3D 关键点,以更高的保真度捕获复杂的运动细节和面部动态。借助这一优化的运动表征,本文的方法明显增强了肖像动画的真实感,同时确保 更精准的心情匹配、身份划一性和多场景适应性。
3D 关键点引导模块
为了确保驱动信号与输入视频潜在表示(latent representations) 之间的时空划一性,我们提出 时空对齐关键点引导模块(Spatio-temporal Alignment Landmark Guide Module)。该模块的核心组件是 3D 因果编码器(3D causal encoder),通过精细调优,该编码器能够更有效地捕获驱动信号的运动表征,确保运动信号与输入视频潜在特性之间的精准对齐。
该模块通过 3D 因果编码器 直接投影 驱动信号,使其与视频潜在特性共享同一个潜在空间。这种共享表征 弥合了运动信号与天生视频帧之间的鸿沟,确保时空动态的同步性。此外,进一步的 精细调优 强化了编码器对复杂运动模式的捕获能力,从而提升运动迁移的真实性和细节还原度。
这一方法不仅确保 精准的运动对齐,还能在天生的视频中保持 身份划一性和运动稳定性,从而实现高质量、时序稳定的肖像动画。
面部图像-文本对齐
在现有的肖像动画方法中,在改变面部心情的同时保持身份划一性仍旧是一个亟待深入研究的挑衅。早期的方法主要通过 跨注意力机制(cross-attention) 和 身份保持适配器(identity-preserving adapters) 来增强身份划一性。然而,我们发现此类方法不仅 训练难度较大,还 引入了大量额外参数,增长了盘算开销。
受CogVideoX架构的启发,我们在心情天生过程中,通过在输入阶段拼接面部图像和视频的嵌入(embeddings)来提升身份划一性。这种方法不仅能够增强身份保持能力,还可以无缝继承预训练基础模子的能力。
为此,本文引入了一个 轻量级的可学习映射模块,该模块接纳 多层感知机(MLP)P,用于将面部特性映射到文本特性空间。
此中, 是由视觉编码器Evision提取的 身份嵌入(identity embedding),该编码器基于预训练的图像-文本模子。由于 能够捕获精细的面部特性,而视觉特性(visual)则涵盖更广泛的面部信息,并且对光照、遮挡等外部因素的敏感度较低,因此融合这两类信息能够提升天生结果中面部特性的准确性。
实行
本节起首概述了实行的实施细节,包罗数据来源、数据过滤过程、基线模子以及实行中使用的基准。然后展示了与选定基线模子的对比实行结果,以验证所提出模块的有效性。
实行设置
实施细节:基于先进的视频扩散Transformer模子CogVideoX-5B进行训练,使用收集的数据集与公开数据集的组合。在多阶段训练过程中,第一阶段训练2K步,第二阶段训练2K步,末了阶段训练1K步,批量大小为512。前两个阶段的学习率设置为1e-5,末了阶段降至1e-6,使用AdamW优化器。实行在32台NVIDIA A800 GPU上进行。在推理过程中,使用DDIM采样器,并将无分类器引导的尺度设置为3。实行中使用的静态参考图像由Flux天生,并来源于Pexels。
数据集来源:训练视频片断来源于NeRSemble数据集、HDTF、DFEW、RAVDESS、Panda70M以及从互联网上收集的约1W个角色视频片断。
数据过滤:在数据预处理阶段,实施了一系列过细的过滤步调,以确保视频-文本数据集的质量和实用性。工作流程包罗三个阶段:单角色提取、运动过滤和后处理。起首,选择单角色视频,并使用现有工具清理视频内容,解决相机捕获伪影和背景噪声等问题。然后使用MediaPipe检测的面部关键点提取头部姿态信息和嘴部标志点。通过盘算头部角度和嘴部变革,筛选出具有明显面部心情和头部运动的样本。末了,基于前几步检测到的面部位置,我们将视频裁剪或添补至固定分辨率480×720,以满足模子的输入要求。从每个视频中随机选择一帧,并使用clip编码器将面部编码为嵌入向量,为模子提供须要的面部特性信息。
基线模子:为了全面评估SkyReels-A1在不同场景下的性能,将其与多个肖像动画基线模子进行比较,包罗开源解决方案LivePortrait、Follow-Your-Emoji以及闭源商业产品Runway Act One。
评估指标
为了衡量肖像动画结果的泛化质量和运动准确性,本文接纳了三个指标分别评估身份相似性、图像质量以及心情和头部姿态的准确性。详细来说:
- 身份保存:使用FaceSim-Arc和FaceSim-Cur分数,盘算源图像与天生图像之间的余弦相似度。
- 图像质量:使用预训练网络结合FID(Fréchet Inception Distance)进行评估。
- 运动准确性:通过比较驱动帧和天生帧之间提取的面部混合外形(blendshapes)和头部姿态的L1差异,使用FaceAnalysis3和OpenPose4工具进行评估。
与基线模子的比较
定量结果:本文进行了跨身份运动通报的实行,此中参考肖像从100张野外图像中随机选择,驱动序列则来自我们的测试数据集。下表1展示了定量评估结果。本文提出的模子在天生保真度和运动精度方面均优于基于扩散和非扩散的方法。通过引入视频扩散Transformer作为先验,SkyReels-A1在图像质量上取得了明显提升,超越了现有方法(闭源商业模子Act-One除外)。
定性结果:下图4展示了肖像动画的定性比较,补充了自动化评估指标的结果。前两个示例突出了模子在驱动或源肖像存在明显姿态变革时仍能准确通报运动的鲁棒性。第三和第四个案例中,模子有效地捕获并通报了精致的面部心情(如嘴唇运动和眼神),同时保持了原始肖像的视觉划一性。此外,末了一个案例表明,通过集成拼接技术,模子在动画全身图像时表现出更高的稳定性,即使参考肖像的面部区域较小。
用户研究
为了进一步验证SkyReels-A1模子在运动准确性和表现力方面的良好性,进行了用户研究,招募了来自不同地理区域的20名到场者对合成视频进行评估。每位到场者回答了一系列比较问题,评估两个关键方面:运动准确性和人类相似性。评估过程中明确告知模子名称,到场者被要求选择最能准确复制驱动序列心情和运动的视频。在收集的100份反馈中,63%的到场者更倾向于选择SkyReels-A1,证实了其在保存面部心情和姿态保真度方面的增强能力优于现有基线模子。
使用
clone代码&准备环境:
- git clone https://github.com/SkyworkAI/SkyReels-A1.git
- cd SkyReels-A1
- # create env using conda
- conda create -n skyreels-a1 python=3.10
- conda activate skyreels-a1
复制代码 下载依赖:
- pip install -r requirements.txt
复制代码 下载预训练weights
- # !pip install -U "huggingface_hub[cli]"
- huggingface-cli download SkyReels-A1 --local-dir local_path --exclude "*.git*" "README.md" "docs"
复制代码 推理
实行脚本
如果脚本运行成功,可以得到一个输出 mp4 文件。该文件包罗以下结果:视频、输入图像或视频以及天生的结果。
结论
本研究提出了 SkyReels-A1,一种基于视频扩散Transformer的创新肖像动画框架。通过融合运动与身份表征,本文的方法在细微和浮夸的面部心情天生方面均实现了高保真度。通过广泛的自动评估和用户评测,我们验证了模子在不同定制场景下的鲁棒性和适应性。我们期待这些具有远景的结果能够推动肖像动画应用的发展。
参考文献
[1] SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |