先容几款文字生成视频的开源框架

发表于 2025-7-8 14:37:22

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

今天介绍几个开源的文字生成视频（Text-to-Video）项目。 像 Google Veo 3 或 OpenAI Sora 那样的电影级、高一致性、长时长的效果，是不是心动了。 之前有介绍过几款开源项目，我都在我的本地电脑上搭建成功了，而且试用过效果都不错。但是文字生成视频的我的电脑运行不起来，配置不够。GPU最低都是18G的，我的电脑只有8G。 所以这里只做介绍，本人并没有在机器上实现过。 <a href="https://www.cnblogs.com/cj8988/p/18952604" target="_blank">图片+音频生成对嘴视频一</a> <a href="https://www.cnblogs.com/cj8988/p/18957718" target="_blank">图片+音频生成对嘴视频</a>二 <a href="https://www.cnblogs.com/cj8988/p/18962212" target="_blank">音频+文字生成新音频(音频克隆一)</a> <a href="https://www.cnblogs.com/cj8988/p/18973016" target="_blank">音频+文字生成新音频(音频克隆二)</a> <a href="https://www.cnblogs.com/cj8988/p/18965418" target="_blank">视频+音频生成对嘴视频</a> 接下来我想自己做一个文字生成视频的过程中，在网上搜索来的，至少从简介和获得的星星数看， 还是非常不错的，有条件的可以在本地搭建一个玩玩看。 🐼 Open-Sora：想做“开源版 Sora” 简介：由开源社区发起，目标是复现 OpenAI Sora 的技术路线，致力于生成高质量、长时长的视频内容。 亮点：更新活跃，社区氛围好，路线紧跟 Sora。 不足：要达到 Sora 目前的水准，还需要大量训练时间与算力投入。 项目地址：<a href="https://github.com/hpcaitech/Open-Sora" target="_blank" rel="noopener nofollow">https://github.com/hpcaitech/Open-Sora</a> ⭐ Star 数：26.8K 🧠 HunyuanVideo：来自腾讯的重磅选手 简介：这个项目是腾讯出的，架构上整合了图像生成和视频生成能力，用一句话概括就是：底子厚，跑得快。 亮点：它支持多卡推理，但你得有比较强的硬件，什么 A100 80G 这种，普通显卡有点够不着。 不足：对硬件要求比较高，比如需要显存 80GB 的 GPU。 项目地址：<a href="https://github.com/Tencent-Hunyuan/HunyuanVideo" target="_blank" rel="noopener nofollow">https://github.com/Tencent-Hunyuan/HunyuanVideo</a> ⭐ Star 数：10.6K ⚡ LTX-Video：追求实时的视频生成体验 简介：这个是 Lightricks 开源的项目，特点就是生成速度快。 亮点：它用的是 DiT 架构，支持从图片生成视频、做关键帧动画、甚至视频“补全”。 不足：目前生成视频的时长和复杂性仍有一定限制，对硬件也有门槛。 项目地址：<a href="https://github.com/Lightricks/LTX-Video" target="_blank" rel="noopener nofollow">https://github.com/Lightricks/LTX-Video</a> ⭐ Star 数：6.9K 🎞️ Allegro：专注短视频生成 简介：这个项目比较“小而美”，专注做短视频，像 6 秒、720p、15FPS 这种。你可以理解为，它不是为了生成一整段电影，而是把“短视频”这件事做到极致。 亮点：如果你就想做点 TikTok 风格、片头片尾那种，这个模型值得一试。 不足：受限于帧率和时长，适合轻量应用。 项目地址：<a href="https://github.com/rhymes-ai/Allegro" target="_blank" rel="noopener nofollow">https://github.com/rhymes-ai/Allegro</a> ⭐ Star 数：1.1K 🧪 CogVideo：较早的文生视频探索者 简介：这是清华出的项目，是比较早期的一个文生视频模型了。它的技术路线是“站在图像生成的肩膀上”，把已有的图像模型拿来做视频拓展 亮点：模型体量大，思路清晰，提供了完整的基础框架。 不足：相较于最新模型，视频连贯性和画质上存在差距，推理硬件门槛较高。 项目地址：<a href="https://github.com/THUDM/CogVideo" target="_blank" rel="noopener nofollow">https://github.com/THUDM/CogVideo</a> ⭐ Star 数：11.7K 🧩 未来展望：开源与闭源的差距还大吗？ Sora 和 Veo 3 目前代表了视频生成领域的最前沿技术，背后是成千上万小时的视频数据和高达数百万美元级别的算力支持。开源项目想要完全赶上它们，短期内还很难。 不过也不必悲观。开源社区的活跃度和更新速度非常惊人，像 Open-Sora、HunyuanVideo 这类项目正迅速进步，未来几年或许能在某些细分领域实现突破。 🎯 最后提醒：高质量视频生成≠人人能跑 目前主流的视频生成模型，对显卡的要求都不低。通常需要：

复制代码

显存至少 24GB 起步
更复杂的模子以致需要 80GB A100
级别显卡18GB 显存是运行某些轻量模子的底线

如果你手上没有这样级别的设备，那建议先观望或使用第三方平台体验。

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

先容几款文字生成视频的开源框架

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

络腮胡菲菲

先容几款文字生成视频的开源框架

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

浏览过的版块

络腮胡菲菲

登录参与点评抽奖加入IT实名职场社区