AI数字人:口播与唇形同步的福音,支持本地部署/批量天生/口齿清晰 Zhikes ...

瑞星  金牌会员 | 2025-3-14 11:09:57 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 953|帖子 953|积分 2859

 
Heygem:开源前端界面的老六玩家

好消息!Heygem 在 GitHub 上开源了!不过,嘻嘻,只是前端界面开源,感觉更像是来 GitHub 刷一波知名度。不过这依然是个值得关注的工具。让我们先来看看它的官方介绍:
Heygem 是一款专为 Windows 系统打造的完全离线视频合成工具。它能精确克隆你的外貌和声音,将你的形象数字化。通过笔墨或语音驱动虚拟化身,你可以轻松制作视频。无需网络连接,在保护隐私的同时,享受高效便捷的数字体验。
焦点功能


  • 精准外貌与语音克隆
    借助先进的 AI 算法,Heygem 高精度捕捉五官、轮廓等特性,构建逼真的虚拟模子。同时,它还能克隆语音,捕捉人声的细微特性,支持多种语音参数设置,打造高度相似的音色结果。
  • 笔墨及语音驱动的虚拟化身
    通过天然语言处理技术,Heygem 能将文本转化为流畅天然的语音,驱动虚拟化身开口“说话”。你也可以直接输入语音,虚拟化身会根据语音的节奏和语调,同步做出相应的动作和心情,体现更加生动。
  • 高效视频合成
    数字人视频画面与声音高度同步,口型匹配天然流畅,智能优化音视频结果,带来极佳的视听体验。
  • 多语言支持
    支持八种语言脚本:英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语,满足环球化需求。
 

重要优势


  • 完全离线操作:无需联网,保护用户隐私,避免数据泄露风险。
  • 用户友好:界面简洁直观,即使是技术小白也能快速上手。
  • 多模子支持:支持导入多种模子,并通过一键启动包管理,灵活适配不同创作场景。
 

技术支持


  • 语音克隆技术:基于 AI 天生与样本高度相似的语音,涵盖语调、语速等细节。
  • 自动语音识别:将语音转化为文本,让盘算机“听懂”你的指令。
  • 盘算机视觉技术:用于面部识别和唇部运动分析,确保唇形与语音完美匹配。
 
更棒的是,Heygem 还支持通过 Docker 进行本地部署,部署后甚至可以批量天生视频!下面我来详细讲讲如何在 Windows 上实现本地部署。
 
 
 
Windows 本地部署 Heygem 教程

步骤 1:安装 WSL


  • 打开 PowerShell(在任务栏搜索“PowerShell”即可找到)。
 

  • 输入以下指令并回车:wsl --install
 

  • 安装完成后,重启系统。
  • 重启后再次打开 PowerShell,输入以下指令 WSL: wsl --update 检查是否安装乐成,如下图则乐成安装
 
 

步骤 2:安装 Docker


  • 前往 Docker 官网下载适用于 Windows 的版本(通常为 Windows AMD64)。
 

  • 下载完成后安装,接受协议,初次运行时可跳过登录。
 
 
 

  • 打开设置,调整镜像存储位置,镜像文件比较大70~80G,选择合适的盘,设置完成后点击“Apply & Restart”。
 
 

步骤 3:部署 Heygem

 

  • 进入下载文件夹,在地址栏输入 cmd 并回车,打开命令行窗口。
 

  • 在命令行输入以下指令: docker-compose up -d 这条指令会创建并启动容器,以背景模式运行。
    根据网络情况好坏,下载镜像大概必要 1-2 小时(建议全程魔法上网)。

  • 下载完成后,打开 Docker Desktop,在“Containers”中确认三个镜像正常运行(正确运行图标为正方形而非三角形)。

[Docker Desktop 中三个镜像运行状态截图]
至此,Heygem 的后端服务已部署完成。因为关键操作(如唇形同步模子)都集成在 Docker 。
 
步骤 4:安装前端界面


  • 前往 GitHub 上的 Heygem 托管页面,下载运行界面 EXE 步伐。

[GitHub 下载界面截图] https://github.com/GuijiAI/HeyGem.ai/releases

  • 下载并安装后即可使用。
 

使用 Heygem 打造数字人


  • 快速定制数字模特
    点击“快速定制”,输入模特名称,上传模特视频,点击提交。
稍等片刻,回到主页即可在“我的数字模特”中看到结果。

  • 天生视频
    鼠标移到数字模特上,点击“做视频”按钮,进入编辑界面。
你可以输入文本或上传音频天生视频。
 


    • 文本合成:仅提供一种音色,略显机械。
    • 音频推荐:使用 CosyVoice 一键包克隆音色,上传音频后再合成,结果更天然。CosyVoice 一键包下载地址在从前的文章中有讲过,下载解压即可使用

 

  • 批量天生与常见问题
    Heygem 支持批量天生,但前一个视频未完成时,后续任务会列队。
  • 如果长时间卡在 20%:

[天生进度卡在 20% 的截图]


    • 检查显卡占用,一样平常来说你的显卡比较好,是不必要太长时间。如果长时间卡在20%,注意是长时间。


[显卡占用截图]


    • 若卡住,前往用户 AppData 目录删除软件数据库,重新上传模特和素材即可。

 
 

 

网页版 AI 数字人:Humva.com

除了 Heygem,另有一个网页工具——Humva.com。它能通过单张图片天生数字人,还支持更换场景和衣着!
使用方法


  • 进入Humva.com,点击“Create Avatar”。
 

  • 上传一张头像,天生数字人模特。
  • 选择音色(默认提供几种,或上传音频),挑选主题场景(如工作室、户外、卡通等)和衣着风格。
 
 

  • 等待天生后,在“我的头像”中检察不同风格的数字人。




  • 点击进入,使用文本或音频天生视频。
 
 
 
总结
Heygem 和 Humva 各有千秋:

  • Heygem 适合必要离线操作和本地部署的用户,功能强大且隐私有保障。
  • Humva 则更轻便,基于网页即可实现多样化数字人创作。
 
无论是口播视频还是唇形同步,AI 数字人正在改变我们的创作方式。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

瑞星

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表