人工智能-AI数字人：口播与唇形同步的福音，支持本地部署/批量天生/口齿清晰 Zhikes

瑞星发表于 2025-3-14 11:09:57

AI数字人：口播与唇形同步的福音，支持本地部署/批量天生/口齿清晰 Zhikes

https://pic4.zhimg.com/v2-4bb93dfa4d61c08fce3ce2cb2288be8d_1440w.jpg
Heygem：开源前端界面的老六玩家

好消息！Heygem 在 GitHub 上开源了！不过，嘻嘻，只是前端界面开源，感觉更像是来 GitHub 刷一波知名度。不过这依然是个值得关注的工具。让我们先来看看它的官方介绍：
Heygem 是一款专为 Windows 系统打造的完全离线视频合成工具。它能精确克隆你的外貌和声音，将你的形象数字化。通过笔墨或语音驱动虚拟化身，你可以轻松制作视频。无需网络连接，在保护隐私的同时，享受高效便捷的数字体验。焦点功能

[*]精准外貌与语音克隆
借助先进的 AI 算法，Heygem 高精度捕捉五官、轮廓等特性，构建逼真的虚拟模子。同时，它还能克隆语音，捕捉人声的细微特性，支持多种语音参数设置，打造高度相似的音色结果。
[*]笔墨及语音驱动的虚拟化身
通过天然语言处理技术，Heygem 能将文本转化为流畅天然的语音，驱动虚拟化身开口“说话”。你也可以直接输入语音，虚拟化身会根据语音的节奏和语调，同步做出相应的动作和心情，体现更加生动。
[*]高效视频合成
数字人视频画面与声音高度同步，口型匹配天然流畅，智能优化音视频结果，带来极佳的视听体验。
[*]多语言支持
支持八种语言脚本：英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语，满足环球化需求。

重要优势

[*]完全离线操作：无需联网，保护用户隐私，避免数据泄露风险。
[*]用户友好：界面简洁直观，即使是技术小白也能快速上手。
[*]多模子支持：支持导入多种模子，并通过一键启动包管理，灵活适配不同创作场景。

技术支持

[*]语音克隆技术：基于 AI 天生与样本高度相似的语音，涵盖语调、语速等细节。
[*]自动语音识别：将语音转化为文本，让盘算机“听懂”你的指令。
[*]盘算机视觉技术：用于面部识别和唇部运动分析，确保唇形与语音完美匹配。

更棒的是，Heygem 还支持通过 Docker 进行本地部署，部署后甚至可以批量天生视频！下面我来详细讲讲如何在 Windows 上实现本地部署。

Windows 本地部署 Heygem 教程

步骤 1：安装 WSL

[*]打开 PowerShell（在任务栏搜索“PowerShell”即可找到）。
https://pica.zhimg.com/v2-ece53c0c9c6d81fe965fa2796a7420f4_1440w.jpg

[*]输入以下指令并回车：wsl --install
https://pic3.zhimg.com/v2-46cd4dbf9cc720c01556c58f5b6f038c_1440w.jpg

[*]安装完成后，重启系统。
[*]重启后再次打开 PowerShell，输入以下指令 WSL： wsl --update 检查是否安装乐成，如下图则乐成安装
https://pic3.zhimg.com/v2-aaf20a886b443a2a9d19e7a1db81eb7e_1440w.jpg

步骤 2：安装 Docker

[*]前往 Docker 官网下载适用于 Windows 的版本（通常为 Windows AMD64）。
https://pic1.zhimg.com/v2-86e0f08c254caa3c72476b1fae7ce0be_1440w.jpghttps://pica.zhimg.com/v2-d0e7f7f51eb9d4d1f5d45fefd04a8df6_1440w.jpg

[*]下载完成后安装，接受协议，初次运行时可跳过登录。
https://picx.zhimg.com/v2-01b3ffdef1b2d39c41b72409d169bf2d_1440w.jpg
https://pic4.zhimg.com/v2-782d3ec62d14f0af22ceda60e4dd0ca1_1440w.jpg
https://pic3.zhimg.com/v2-3267733275ef3ed712766dbdfd6c9626_1440w.jpg

[*]打开设置，调整镜像存储位置，镜像文件比较大70~80G，选择合适的盘，设置完成后点击“Apply & Restart”。
https://pic2.zhimg.com/v2-3268c25de1de1ea960a520e08b6c8fe3_1440w.jpg

步骤 3：部署 Heygem

[*]前往 Heygem github官网 https://github.com/GuijiAI/HeyGem.ai/tree/main/deploy，下载 Docker 部署文件。
你无需关心文件内容，只需使用 Docker 指令即可。
https://picx.zhimg.com/v2-53970b2e12eb0bf2f28564b99662c681_1440w.jpg

[*]进入下载文件夹，在地址栏输入 cmd 并回车，打开命令行窗口。
https://pic2.zhimg.com/v2-04668bc429abb3b6ff3423362d781571_1440w.jpghttps://pic1.zhimg.com/v2-48d003eebf482b1f14beb2ef7dc04752_1440w.jpg

[*]在命令行输入以下指令： docker-compose up -d 这条指令会创建并启动容器，以背景模式运行。
根据网络情况好坏，下载镜像大概必要 1-2 小时（建议全程魔法上网）。
https://pic3.zhimg.com/v2-48ddcf2a366c1d260466de9e895e1afa_1440w.jpghttps://pic2.zhimg.com/v2-cac6fa4643cb7949a11e47e4c4fc451f_1440w.jpg
[*]下载完成后，打开 Docker Desktop，在“Containers”中确认三个镜像正常运行（正确运行图标为正方形而非三角形）。
https://picx.zhimg.com/v2-4a01f116c2ca753bce9891f7d99da087_1440w.jpg

至此，Heygem 的后端服务已部署完成。因为关键操作（如唇形同步模子）都集成在 Docker 。

步骤 4：安装前端界面

[*]前往 GitHub 上的 Heygem 托管页面，下载运行界面 EXE 步伐。
https://pic2.zhimg.com/v2-f6c74bf0c859c3218b2b0f80251dafe9_1440w.jpg
https://github.com/GuijiAI/HeyGem.ai/releases

[*]下载并安装后即可使用。

使用 Heygem 打造数字人

[*]快速定制数字模特
点击“快速定制”，输入模特名称，上传模特视频，点击提交。
https://picx.zhimg.com/v2-93552b294ce17475b11ce5af77899e63_1440w.jpghttps://pica.zhimg.com/v2-76cbcfd0b7036d1032ac39955450c26e_1440w.jpghttps://pic3.zhimg.com/v2-ea5cc21762e8a4dc2145ef22055590d8_1440w.jpg稍等片刻，回到主页即可在“我的数字模特”中看到结果。

[*]天生视频
鼠标移到数字模特上，点击“做视频”按钮，进入编辑界面。
https://pic4.zhimg.com/v2-d3cc2ec316c9f6990cd77fb7c55ea873_1440w.jpghttps://pic2.zhimg.com/v2-cfaada725af52673cc0b740510aec9ad_1440w.jpg你可以输入文本或上传音频天生视频。
https://pic1.zhimg.com/v2-fb03cd7ea5fee1d02d7e55c38ad56f34_1440w.jpg

[*]文本合成：仅提供一种音色，略显机械。
[*]音频推荐：使用 CosyVoice 一键包克隆音色，上传音频后再合成，结果更天然。CosyVoice 一键包下载地址在从前的文章中有讲过，下载解压即可使用

[*]批量天生与常见问题
Heygem 支持批量天生，但前一个视频未完成时，后续任务会列队。
[*]如果长时间卡在 20%：
https://pic3.zhimg.com/v2-abda3498217314443000656dcb5d31ba_1440w.jpg
[天生进度卡在 20% 的截图]

[*]检查显卡占用，一样平常来说你的显卡比较好，是不必要太长时间。如果长时间卡在20%，注意是长时间。

https://pic1.zhimg.com/v2-bc4a3a3f31eec632f0b56087721de996_1440w.jpg
[显卡占用截图]

[*]若卡住，前往用户 AppData 目录删除软件数据库，重新上传模特和素材即可。

https://picx.zhimg.com/v2-87ddd5d51e199d869d485dbab35ca32b_1440w.jpg

网页版 AI 数字人：Humva.com

除了 Heygem，另有一个网页工具——Humva.com。它能通过单张图片天生数字人，还支持更换场景和衣着！
使用方法

[*]进入Humva.com，点击“Create Avatar”。
https://pic1.zhimg.com/v2-81d87c5dde88673d5fdfe3682c533f78_1440w.jpg

[*]上传一张头像，天生数字人模特。
[*]选择音色（默认提供几种，或上传音频），挑选主题场景（如工作室、户外、卡通等）和衣着风格。
https://pica.zhimg.com/v2-dec957e9e57547bc15895ce6f83e4160_1440w.jpg
https://pic4.zhimg.com/v2-f3dd78d1c1ea02c4ddd8e19ff3cff4d1_1440w.jpghttps://pica.zhimg.com/v2-707fe250844538913aafb4aa31c6c9fa_1440w.jpghttps://pic1.zhimg.com/v2-2c0ed7939420c790eb885ce3ac8f3dda_1440w.jpg

[*]等待天生后，在“我的头像”中检察不同风格的数字人。
https://pic2.zhimg.com/v2-5b54c6eef0b0e55b449399c1a4b8d211_1440w.jpg

[*]点击进入，使用文本或音频天生视频。
https://pic2.zhimg.com/v2-cf4c4ae7cdacf9082267741928551e6b_1440w.jpg

总结
Heygem 和 Humva 各有千秋：

[*]Heygem 适合必要离线操作和本地部署的用户，功能强大且隐私有保障。
[*]Humva 则更轻便，基于网页即可实现多样化数字人创作。

无论是口播视频还是唇形同步，AI 数字人正在改变我们的创作方式。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

AI数字人：口播与唇形同步的福音，支持本地部署/批量天生/口齿清晰 Zhikes