LatentSync数字人,一键批量,口型同步,MPS加快(WIN/MAC)
分享一个迩来还不错的数字人项目——LatentSync。该项目由字节开源,上传一段音频和视频,即可生成数字人视频。https://i-blog.csdnimg.cn/img_convert/39f51357d33dd42119e584fc13b286db.png
我对该项目做了些更改,增长了批量和MAC版本的支持,用MAC的小伙伴再也不用遗憾了…
https://i-blog.csdnimg.cn/img_convert/5c75bc65ffa4d7389ce9dccae10d5bc7.png
看下我生成的效果。
https://live.csdn.net/v/460345
简朴介绍下如何使用
上传一段人物视频和你要生成人物说话的音频。
https://i-blog.csdnimg.cn/img_convert/8f84f9c4b7cbe72d6dc5c918fe4aa85b.png
点击处理视频等待视频生成
https://i-blog.csdnimg.cn/img_convert/152ab2d3d5c6fb556a22622bf3fea891.png
https://live.csdn.net/v/460346
批量模式的使用也雷同,支持上传多个文件。
https://i-blog.csdnimg.cn/img_convert/193ad3108350dd7c3639ce28b621542e.png
批量模式下音频数目一定要和视频数目保持同等,如果缺少是会报错的。
https://i-blog.csdnimg.cn/img_convert/ad365832d53b89e315dfe39597dc46cb.png
配置需求
WIN
WindowsN卡需8G显存
如果整合包运行报错,必要安装cuda12.4
https://developer.nvidia.com/cuda-12-4-0-download-archive
MAC
MAC Apple Silicon M1/M2/M3/M4 芯片
8G内存
这里MAC用户需注意
页:
[1]