【LLM】文生视频相干开源数据集(VidGen、Panda、Cogvideox等)
note[*]总结了VidGen数据集、Panda-70m数据集、Openvid数据集、OpenVid-1M数据集、Cogvideox练习数据预备过程、ShareGPT4Video数据集等
[*]在一篇综述中还总结了评估指标包罗:峰值信噪比(PSNR)、布局相似性指数(SSIM)、Inception 分数(IS)、Fréchet Inception 间隔(FID)、CLIP 分数、视频 Inception 分数(Video IS)、核视频间隔(KVD)、帧划一性分数(FCS)
[*]各家提出的开源数据后,为了证实自己有效,会在上面这些差异指标评测
一、VidGen数据集
(1)VidGen数据集:vidgen-1M利用了来自HD-VILA数据集的380万高分辨率、长时段视频。随后,这些视频被分割成1.08亿个视频片断。接下来,本文对这些视频片断举行了标注和采样。然后,利用VILA模子举行视频字幕天生
论文链接:https://arxiv.org/pdf/2408.02629
项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/
git链接:https://github.com/SAIS-FUXI/VidGen
二、Panda-70m数据集
(2)Panda-70m数据集:这里是从公开可用的高清视频语料库HD-VILA-100M中策划了380万个高分辨率视频。然后,我们将它们分割成语义划一的视频片断,并应用多个跨模态西席模子为每个视频获取字幕。panda-70m数据集代价:视频字幕天生、视频和文本检索以及文本驱动的视频天生。
论文名:Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
论文链接:https://arxiv.org/pdf/2402.19479.pdf
三、Openvid数据集
(3)Openvid数据集:通过广泛的实行和溶解研究,验证了OpenVid-1M数据集相较于先前数据集的精良性以及MVDiT模子的有效性。在公共基准测试中,MVDiT在多个评估指标上均取得了最佳性能,
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金
页:
[1]