掀桌子级别的「数字人」开源了！

杀鸡焉用牛刀 · 2025-3-15 03:48:06

  掀桌子级别的「数字人」开源了！
  刚刚，刚刚头部数字人公司硅基智能宣布：开源了全球 TOP 级别的模型：硅基数字人 heygem.ai
  并且提供下载安装包，对于不懂代码的小白也能快速上手制作自己的数字人。效果业内顶级，直接把数字人技术的门槛拉到地板。
  口型匹配效果流通丝滑，业内顶级，并且开放了无限克隆能力。这是真掀桌子了，不光思考：以后谁还会花钱买数字人？

开源地址：https://github.com/GuijiAI/HeyGem.ai

复制代码

  01

  有多强？
  只需要上传 1 秒视频大概一张你的照片， 30 秒就能克隆出你的数字分身，精准克隆你的外貌和声音，并天生 60 秒视频。

  ① 口型发音匹配，毫无为违和感。
  基于先进 AI 算法，基于你上传的肖像图片，精准捕捉辨认你的五官、面部表面，辨认你的声音的特性，克隆你的形象和声音。
  而且在侧脸大概脸部遮挡情况下，也能 100% 匹配口型和发音。并且数字人分身会自动对口型，根据语音内容自动调节心情和语速节奏，顶级口型发音匹配。
  克隆音色后支持 8 种语言输出，看看你的数字分身说一口流利日语是什么样的

  ② 无限时长，离线克隆
  市面上的数字人工具，天生 20 分钟的视频大概需要 15 元。利用硅基数字人开源工具，免费不限量，并且支持离线克隆数字人的形象和声音。
  不需要网络，不会把你的个人隐私照片、视频上传到云端，保护你的隐私。
  ③ 4K 画质，高清导出
  逛逛 GitHub 之前推荐过硅基智能第一个数字人开源项目，那个画质仅仅支持 720p ，硅基数字人直接支持超清 4K 导出，无限时长合成数字人视频，清晰度拉满。
  ④ 代码开源，定制化开辟
  开辟者可基于硅基数字人的开源代码定制开辟，企业能在当地搭建 AI 内容生产系统，创作者则可轻松天生高质量的 AI 数字人视频。

  不再依赖封闭平台或昂贵云服务，其高效推理实现 1:2 视频渲染速率，机动部署适合个人、中小企业及大型机构，广泛应用于内容创作、营销、教诲、电商等领域。

  02

  如何部署
  硅基数字人提供了多种部署方式，只要你的显卡配置不低于英伟达1080Ti、并且当地有 100G 的空间，就能在本机搭建属于你自己的数字人天生神器。
  如下是推荐配置哈：

CPU：第 13 代英特尔酷睿 i5-13400F
内存：32G
显卡：rtx-4070，确保正确安装了显卡驱动

  安装 Windows Docker

  ① 安装 wsl 的命令：wsl --install
  可以用 wsl --list --verbose 命令可以查看本机有没有安装过 wsl，假如装过了就不需要装了。
  ② 下载 Docker Windows 版
  打开 docker.com 下载，根据你的硬件配置情况选符合的版本。
  ③ 安装成功后，可以运行 Docker

  安装服务端

  采用 Docker 方式安装，docker-compose 如下：

在当地新建一个 docker-compose.yml 文件，把上面的内容粘贴进去。在 docker-compose.yml 所在目次执行如下命令。

docker-compose docker-compose up -d

复制代码

连接上 WiFi，大概半小时左右就能下载完成（大概 70 G），假如在 Dokcer 中看到如下三个服务，表现成功了：

  客户端
  构建脚本 npm run build:win，执行后会在 dist 目次下产生 HeyGem-1.0.0-setup.exe，双击即可安装啦。

开源地址：https://github.com/GuijiAI/HeyGem.ai

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

掀桌子级别的「数字人」开源了！

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云