什么是 Pyramidal Flow?
Pyramidal Flow 是由快手科技、北京大学和北京邮电大学联合推出的开源视频生成模子,它是完全开源的,发布在 MIT 允许证下,允许贸易利用、修改和再分发。该模子可以或许通过文本描述生成最高10秒、分辨率为1280x768、帧率24帧的视频。其核心技能是金字塔流匹配算法,将视频生成过程分解为多个不同分辨率的阶段,从而提高生成效率和质量。
功能特色
- 文本到视频生成:用户可以输入文本提示,模子生成与描述符合的视频内容。
- 高分辨率输出:支持生成高达768p分辨率的视频。
- 自回归视频生成:支持一连帧生成,确保视频的连贯性和流畅度。
- 端到端优化:在统一框架内进行优化,简化练习和部署。
- 高效生成:采用流匹配技能,降低盘算复杂度。
Pyramidal Flow 与其他视频生成模子的不同之处
- 金字塔流匹配技能:
- Pyramidal Flow 采用了一种名为金字塔流匹配的技能,将视频生身分解为多个不同分辨率的阶段,开始时生成低分辨率的草图,然后逐步提升到高分辨率。这种技能降低了盘算负担,同时提高了生成的机动性。
- 自回归框架和块状因果注意力机制:
- 模子利用自回归框架和块状因果注意力机制,确保视频的连贯性和逻辑性。每一帧都能基于之前的帧进行生成,提高了生成视频的质量和同等性。
- 高效练习与盘算资源:
- Pyramidal Flow 在 A100 GPU 上仅颠末了 20,700 小时的练习,能耗和效率远超市面上的同类模子。这对于没有庞大算力的中小企业和个人开发者来说,是一个巨大的助力。
- 开源性质:
- Pyramidal Flow 是完全开源的,发布在 MIT 允许证下,允许贸易利用、修改和再分发。这使得它非常适合开发者和内容创作者利用,尤其是希望制止高额订阅费用的用户。
- 高质量视频生成:
- 在官方的 VBench 基准测试中,Pyramidal Flow 的总评分为 81.72,与众多贸易模子并驾齐驱。只管在动态流畅度和画面稳固性方面略低于某些贸易模子,但其质量非常靠近于贸易模子。
- 硬件要求:
- 由于模子基于大型 Transformer 架构,运行时对硬件要求较高。运行 768p 视频生成时需要 40GB 显存,384p 视频生成则需要 26GB 显存。
定价信息
Pyramidal Flow 是完全开源的,发布在 MIT 允许证下,允许贸易利用、修改和再分发。
怎样利用
Pyramidal Flow 已在 Hugging Face 平台上线,用户可以通过以下方式利用:
- Pyramid Flow项目官网 | MeoAI:
- Pyramid Flow在线体验demo:
- Pyramid Flow论文地点:
- GitHub代码:;
- Hugging Face模子下载:
- ComfyUI 插件:通过安装插件在 ComfyUI 中利用。
利用 Pyramidal Flow 模子的具体步调
在本地情况中利用 Pyramidal Flow 模子来生成视频。这涉及到在本地呆板上安装必要的软件、下载模子、运行模子生成视频等操作。这种方法适用于那些希望在本地呆板上直接运行模子、进行实验或者开发应用的用户。
安装
起首,你需要克隆 Pyramidal Flow 的官方 GitHub 仓库,并按照阐明创建一个新的 conda 情况,并安装必要的依赖项
- # 克隆 Pyramidal Flow 的 GitHub 仓库
- git clone https://github.com/jy0205/Pyramid-Flow
- cd Pyramid-Flow
- # 创建一个新的 conda 环境,并安装 Python 3.8.10
- conda create -n pyramid python==3.8.10
- # 激活新创建的环境
- conda activate pyramid
- # 安装所需的 Python 库
- pip install -r requirements.txt
复制代码 下载模子
从 Huggingface 模子库下载预练习模子:
- # 从 Huggingface 模型库下载预训练模型
- from huggingface_hub import snapshot_download
- model_path = 'PATH' # 本地保存下载的检查点路径
- snapshot_download("rain1011/pyramid-flow-sd3", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')
复制代码 利用模子生成视频
加载下载的模子,并利用提供的文本提示生成视频:
- import torch
- from PIL import Image
- from pyramid_dit import PyramidDiTForVideoGeneration
- from diffusers.utils import load_image, export_to_video
- # 设置 CUDA 设备
- torch.cuda.set_device(0)
- # 初始化模型
- 更多代码内容访问教程地址:https://www.meoai.net/pyramidal-flow.html
- # 定义文本提示
- prompt = "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors"
- # 使用模型生成视频
- 更多代码内容访问教程地址
- # 将生成的帧导出为视频文件
- 更多代码内容访问教程地址
复制代码 利用技巧
- guidance_scale 参数控制视觉质量,建议对 768p 查抄点利用 [7, 9] 以内的引导。
- video_guidance_scale 参数用于控制活动,数值越大,动态程度越高。
Pyramidal Flow 模子的练习数据
Pyramidal Flow 模子的练习数据来源重要是开源数据集。具体来说,模子在练习过程中利用了以下数据集:
- LAION-5B:这是一个用于多模态AI研究的大型数据集。
- CC-12M:由网络爬虫网络的图像文本对的数据集。
- SA-1B:一个具有高质量、无模糊图像的数据集。
- WebVid-10M 和 OpenVid-1M:这两个数据集被广泛用于文本到视频生成的视频数据集。
Pyramidal Flow 模子在练习时仅利用了开源数据集,总计利用了 20,700 小时的 A100 GPU 盘算资源。这种开源的练习数据计谋使得模子可以供广大开发者和研究者免费利用,并便于进行进一步的研究和开发。
适用场景
- 娱乐和社交媒体:用于生成有趣的视频内容,适合在社交平台分享。
- 电影和电视制作:生成特定场景或配景,降低现实拍摄本钱。
- 游戏开发:生成游戏内动画和视频内容,提高设计效率。
- 广告和营销:快速生成吸引人的广告视频。
- 教育和培训:生成讲授视频,帮助解释复杂概念。
Pyramidal Flow 提供了高效、机动的视频生成解决方案,适合开发者、艺术家和创作者利用
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |