LatentSync当地部署教程：基于音频精准生成唇形高度同步视频 ...

滴水恩情 · 2025-1-21 14:41:11

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

LatentSync 是字节跳动连合北京交通大学推出的一个端到端的唇形同步框架，以下是对其的具体先容：
一、技能基础

LatentSync 基于音频条件的潜伏扩散模型，无需任何中间的 3D 表现或 2D 特征点。它利用了 Stable Diffusion 的强大生成本事，能够捕捉复杂的视听关联，并生成动态逼真的说话视频。
二、核心特点

唇形同步生成 ：根据输入的音频，LatentSync 能够生成与之匹配的唇部运动，使视频中的人物嘴唇与音频同步。这一特点使其实用于配音、假造头像等场景。
高分辨率视频生成 ：LatentSync 能够生成高分辨率的视频，克服了传统扩散模型在像素空间进行扩散时对硬件要求高的限定。
动态逼真效果 ：生成的视频具有动态逼真的效果，能够捕捉到与情感语调相关的渺小表情，使人物的说话更加天然生动。
时间同等性加强 ：为了办理扩散模型在不同帧间扩散过程不同等导致的时间同等性问题，LatentSync 引入了 Temporal REPresentation Alignment（TREPA）方法。该方法利用大规模自监督视频模型提取时间表现，加强生成帧与真实帧的时间同等性，同时保持唇同步的准确性。

三、技能创新

端到端框架 ：LatentSync 接纳端到端的方式，无需中间运动表现，能够直接建模复杂的音频与视觉之间的关系。
TREPA 机制 ：通过 TREPA 机制，LatentSync 能够加强时间同等性，确保生成的视频在口型同步准确性的同时，能够在时间上保持连贯。
SyncNet 优化 ：LatentSync 办理了 SyncNet 的收敛问题，并显著提高了唇同步的准确性。这一优化经验也可应用于其他利用 SyncNet 的唇部同步和音频驱动的肖像动画方法。

四、项目地点

github地点：
https://github.com/bytedance/LatentSync
五、部署

1.设置环境

安装所需的软件包并通过以下方式下载查抄点：
source setup_env.sh
假如下载成功，查抄点应如下所示：

./checkpoints/
|-- latentsync_unet.pt
|-- latentsync_syncnet.pt
|-- whisper
| -- tiny.pt
|-- auxiliary
| |-- 2DFAN4-cd938726ad.zip
| |-- i3d_torchscript.pt
| |-- koniq_pretrained.pkl
| |-- s3fd-619a316812.pth
| |-- sfd_face.pth
| |-- syncnet_v2.model
| |-- vgg16-397923af.pth
| -- vit_g_hybrid_pt_1200e_ssv2_ft.pth

复制代码

这些已经包括 latentsync 训练和推理所需的所有查抄点。假如您只想实验推理，您只需从 HuggingFace 存储库下载 latentsync_unet.pttiny.pt
2.推理

运行脚本进行推理，这必要约莫 6.5 GB 的 GPU 内存。

./inference.sh

复制代码

您可以将参数更改为 1.5 以提高口型同步精度。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

LatentSync当地部署教程：基于音频精准生成唇形高度同步视频 ...

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块