【LLM】文生视频相干开源数据集（VidGen、Panda、Cogvideox等）

梦见你的名字 发表于 2026-1-29 19:29:24

note

[*]总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox练习数据预备过程、ShareGPT4Video数据集等
[*]在一篇综述中还总结了评估指标包罗：峰值信噪比（PSNR）、布局相似性指数（SSIM）、Inception 分数（IS）、Fréchet Inception 间隔（FID）、CLIP 分数、视频 Inception 分数（Video IS）、核视频间隔（KVD）、帧划一性分数（FCS）
[*]各家提出的开源数据后，为了证实自己有效，会在上面这些差异指标评测

一、VidGen数据集

（1）VidGen数据集：vidgen-1M利用了来自HD-VILA数据集的380万高分辨率、长时段视频。随后，这些视频被分割成1.08亿个视频片断。接下来，本文对这些视频片断举行了标注和采样。然后，利用VILA模子举行视频字幕天生
论文链接：https://arxiv.org/pdf/2408.02629
项目链接：https://sais-fuxi.github.io/projects/vidgen-1m/
git链接：https://github.com/SAIS-FUXI/VidGen
二、Panda-70m数据集

（2）Panda-70m数据集：这里是从公开可用的高清视频语料库HD-VILA-100M中策划了380万个高分辨率视频。然后，我们将它们分割成语义划一的视频片断，并应用多个跨模态西席模子为每个视频获取字幕。panda-70m数据集代价：视频字幕天生、视频和文本检索以及文本驱动的视频天生。
论文名：Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
论文链接：https://arxiv.org/pdf/2402.19479.pdf
三、Openvid数据集

（3）Openvid数据集：通过广泛的实行和溶解研究，验证了OpenVid-1M数据集相较于先前数据集的精良性以及MVDiT模子的有效性。在公共基准测试中，MVDiT在多个评估指标上均取得了最佳性能，

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！qidao123.com:ToB企服之家，中国第一个企服评测及软件市场,开放入驻,技术点评得现金

页: [1]

qidao123.com ToB IT社区-企服评测·应用市场's Archiver

【LLM】文生视频相干开源数据集（VidGen、Panda、Cogvideox等）