ToB企服应用市场:ToB评测及商务社交产业平台

标题: 【AIGC】MimicMotion:姿态引导的高质量人体运动视频生成技能 [打印本页]

作者: 愛在花開的季節    时间: 2024-9-2 14:36
标题: 【AIGC】MimicMotion:姿态引导的高质量人体运动视频生成技能
资源

论文:https://arxiv.org/pdf/2406.19680
github:https://github.com/Tencent/MimicMotion
comfyui:https://github.com/kijai/ComfyUI-MimicMotionWrapper
核心要点

1. confidence-aware pose guidance可以确保高质量视频和时间维度上的帧与帧之间的平滑
2. 区域丧失,减少了图像失真
3. 渐进式埋伏空间融合战略

数据准备

视频数据集包括大量人物动作,利用预先训练过的图像到图像的视频模子的强盛本领,数据集不必要过大,因为预先训练的模子已经有很好的先验。
数据集中的每个视频由三部分组成:
1.参考图(
)
2.一组视频序列
3.序列相对应的动作
预处理部分

视频序列调整大小和裁剪为了获取固定比率的视频,参考图是在雷同视频中随机选取的,参考图会以同样的方式做预处理,pose数据是通过DWPose库提取的。
亮点

利用了预训练的svd视频生成模子,可以大大减少训练数据集的大小和算力的要求。

网络布局


参考图片进入扩散模子会有两个分支,一是UNet的每个块。通过一个视觉编码器CLIP,可以将提取到的特征喂入每个UNet的交织注意力用于控制最终输出。二是变为输入的埋伏特征,使用冻结的VAE编码器获取埋伏空间的表现。参考图片被重复编码多次,告急为了与输入序列帧对齐。并将两者堆叠送入UNet。
作者直接将帧序列中提取到Pose序列加到UNet的第一个卷积输出层,而没有加入到每个UNet块
有两个原因
a) 序列姿势逐帧提取,没有任何时间交互,因此当 U-Net 直接对这些层产生影响时,它可能会肴杂 U-Net 中的时空层;  b) 姿势序列的过分参与可能会低落预训练的图像到视频模子的性能。
关键点详解

Confidence-aware pose guidance

 将姿势和关键点的置信度分数集成到它们各自的画图颜色中。这意味着我们将分配给每个关键点和肢体的颜色乘以其置信度分数。因此,具有较高置信度分数的关键点和相应的肢体在姿势引导图上会显得更显著。该方法使模子能够在其指导中优先思量更可靠的姿态信息,从而进步姿态引导生成的整体精度。

 比较清楚的姿态,颜色会更深一些。
Hand region enhancement 

 
此外,我们采用姿态估计和相关置信度分数来缓解基于区域的伪影,比方手部失真,这在基于扩散的图像和视频生成模子中很普遍。具体来说,我们通过阈值关键点置信度分数来辨认可靠的区域。通过设置阈值,我们可以区分自大检测到的关键点和由于遮挡或运动模糊等因素可能模糊或不精确的关键点。置信度分数高于阈值的关键点被以为是可靠的。我们实现一种基于置信阈值生成掩码的屏蔽战略。我们揭开置信度分数高出预定义阈值的区域,从而辨认可靠的区域。在盘算视频扩散模子的丧失时,未遮蔽区域对应的丧失值按肯定比例放大,因此与其他遮蔽区域相比,它们对模子训练的影响更大。
具体来说,为了减轻手部失真,我们使用手部区域中关键点的置信度阈值盘算掩码。只有全部高出此阈值的关键点置信度分数的手被以为是可靠的,因为更高的分数与更高的视觉质量相关。然后,我们通过添补这些关键点的边界来构造手周围的边界框,并将封闭的矩形指定为未屏蔽的。在视频扩散模子训练期间,该区域随后在丧失盘算中被分配了更大的权重。这种选择性揭破和加权过程使模子对手的学习方向,尤其是视觉质量较高的手,有效地减少了失真,进步了生成内容的整体真实感。
推理阶段

在推理阶段,一段长视频会采用重叠帧技能举行埋伏空间渐进式融合,权重与重叠帧和非重叠帧的间隔有关。

 可视化权重表现图



实现细节

数据集有4436个人物舞蹈视频,每个时长20s。采用了预训练的SVD1.1权重。PoseNet是重新开始训练的,我们在8卡A100(40G)上训练了20轮,每个装备上的batch_size为1。学习率是10-5并且针对前500个迭代步数有一个warmup的调整战略。我们调整了UNet和PoseNet的全部参数。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4