近年来,文本驱动的视频生成 (Brooks 等人 2024;Hunyuan 2024) 取得了明显增长。然而,评估这些文本驱动的AI生成视频带来了独特且日益严峻的挑衅。这些挑衅主要源于两个关键题目:(1)需要精确的视频与文本对齐,特别是在处理复杂和长文本提示时;(2)出现了一些在自然生成视频中不常见的独特失真现象,比方不规则运动模式和物体。
随着新一代视频模型的发展,这些挑衅变得更加突出。这些新一代模型以 Sora (Brooks 等人 2024) 的出现为标志,在生成质量上相比以往模型有了明显提升,其特点在于丰富的细节和内容,如 Kling (快手 2024) 、Gen-3-alpha (Runway 2024) 、Vidu (圣书 2024) 等。与之前的 AIGC 视频相比,这些模型支持 更长且更复杂的文本提示(通常超过200个字符),以及更复杂的运动模式和更长的连续时间(通常超过5秒,帧率为24帧每秒) 。如图 [fig:1] 所示,这些丰富的内容对评估者的理解视频动态及其与复杂文本语义关系的能力提出了更高的要求。
为了应对这一题目,我们引入了 Content-Rich AIGC Video Evaluator (CRAVE),用于评估这些新一代文本驱动视频的质量。CRAVE 从三个角度评估视频:起首,它思量了传统视觉和谐性,类似于从前的视频质量评估 (VQA) 方法 (吴等 2023) ,该方法衡量美学和失真。此外,CRAVE 使用多粒度文本-时间融合模块来对齐复杂文本与视频动态。此外,CRAVE 结合了混合运动保真建模,使用层次化运动信息评估新一代AIGC视频的时间质量。
此外,最新AIGC视频的自然性和复杂性与之前视频之间的差距变得尤为明显。为了更好地评估当前的AIGC视频,我们引入了 CRAVE-DB,一个包含1,228个由高级模型(如Kling (快手 2024) 、青影 (智谱 2024) 、Vidu (圣书 2024) 和 Sora (Brooks 等人. 2024) )生成的复杂文本驱动视频的VQA基准数据集。这里,“复杂文本”指的是包括主体、动作和环境的完整形貌,并至少有 5 个具体形貌中的任何一个方面,总字符数超过 200 。这些视频根本消除了前几代视频中存在的闪耀、弱运动和短内容等题目。它们涵盖了各种场景、主体、动作和丰富细节,连续时间超过5秒,帧率为24 fps。大量实行表明,CRAVE 在多个指标上实现了领先的人类一致性视频质量评估结果,涵盖了 T2V-DB (Kou 等 2024b) ,现在最大的AIGC VQA数据集,以及提出的 CRAVE-DB。
总结来说,我们的主要贡献如下:(1)我们引入了 CRAVE,一种有用评估由新一代视频模型生成的丰富内容视频的评估器,通过有用的运动感知视频动态理解和多粒度文本-时间融合模块,从时间和视频-文本一致性方面评估AIGC视频。(2)鉴于新旧两代AIGC视频之间的差距,我们引入了 CRAVE-DB,这是一个由高级模型(如Kling等)生成的AIGC VQA样本基准,有助于评估当代内容丰富的AIGC视频。(3)大量实行表明,所提出的 CRAVE 在多个来源不同的AIGC VQA基准上取得了优异的结果,展示了对AIGC视频质量的强大理解能力。
2 相关工作
2.1 文本到视频模型的评估
现在,常用的文本驱动生成视频评估方法包括一些客观指标 (Radford 等 2021;Unterthiner 等 2018; Salimans 等 2016) 和人类一致的方法 (Kirstain 等 2023;Qu 等 2024;Kou 等 2024b) 。客观指标如 CLIP-score (Radford 等 2021) 测量文本与每个帧之间的均匀余弦相似度。IS (Salimans 等 2016) 使用 inception 特征测量图像和视频帧的整体质量。Flow score (Huang 等 2024) 通过光流模型(如 (Teed 和 Deng 2020;S. Sun 等 2022) )盘算动态水平。然而,这些客观指标并不符合人类主观感知,通常只从单一维度评估视频。一些评估自然视频质量的方法提供了人类一致的整体评价 (吴等 2023;吴等 2022;Kou 等 2023) 。DOVER (吴等 2023) 从美学和技术角度评估质量。FastVQA (吴等 2022) 使用网格小块采样高效评估视频,同时保持准确性。Q-Align (吴等 2023) 通过多模态大型语言模型将视频质量评估任务转换为离散质量等级词的生成。StableVQA (Chai 等 2023) 通过分别获取原始光流、语义和模糊特征来测量视频稳固性。这些方法适用于自然视频质量评估,但未思量文本与视频的对齐,这是评估文本驱动视频的关键。为此,EvalCrafter (刘耀芳等 2024) 通过一系列指标(包括CLIP分数、SD分数和自然视频质量评估方法)举行质量评估。T2V-QA (Kou 等 2024b) 将基于变压器的编码器和大型语言模型结合,评估文本驱动的AIGC视频。TriVQA (Qu 等 2024) 通过交叉注意力池和Video-LLaVA的重新字幕探索视频文本一致性。然而,专门针对AIGC视频的VQA方法仍旧相对较少。随着新一代视频的发展,理解和评估视频动态和文本一致性变得更加紧张,带来了更大的挑衅。
2.2 文本到视频生成方法
随着扩散模型的鼓起 (Rombach 等 2022;Ho, Jain, 和 Abbeel 2020) , 大量视频生成模型涌现 (Singer 等 2023;Y. Wang 等 2023;J. Wang 等 2023;Blattmann 等 2023;H. Chen 等 2023;Zheng 等 2024;Lab 等 2024) 。它们在视频生成方面取得了重大突破。然而,从前的方法生成的视频仍倾向于存在低分辨率、短时长、闪耀和失真的题目。随着 Sora (Brooks 等 2024) 的出现,新一代模型 (Hunyuan 2024; LumaLabs 2024;MiniMax 2024;Tongyi 2024;Labs 2024;Yang 等 2024) 取得了明显进展。特别是迩来,像 Kling (快手 2024) 、Gen-3-alpha (Runway 2024) 和 Qingying (智谱 2024) 等方法在视频生成方面取得了令人印象深刻的成果,并已提供给社区测试。这些视频普遍缓解了从前方法中的底子题目,连续时间超过5秒,帧率高于24 fps。同时,这些视频中的内容包含很多细节,并支持通过更长的文本输入举行控制。在新一代视频生成模型的浪潮下,有用评估视频中更复杂的时空关系及其与更长文本的一致性是一个值得进一步研究的话题。
2.3 文本到视频VQA数据集
为了评估并进一步促进T2V模型的发展,提出了一些文本到视频VQA数据集。尽管如此,仍旧缺乏适合评估当前AIGC视频的文本到视频QA数据集。EvalCrafter (刘耀芳等 2024) 网络了700个提示,并使用5个模型生成了总共2500个视频。FETV (刘远欣等 2023) 使用619个提示,通过4个T2V模型生成了2,476个视频。Chivileva (Chivileva 等 2023) 从5个T2V模型生成了1,005个视频。VBench (Huang 等 2024) 使用近1,700个提示和4个T2V模型生成了6984个视频。T2VQA-DB (Kou 等 2024a) 包含由1000个提示生成的10,000个视频。 这些数据集主要满足两个挑衅:(1)根据 ITU 标准 (Series 2012) ,评估职员数目应超过15人,以确保评估误差在可控范围内。此中只有 T2VQA-DB (Kou 等 2024a) 和 Chivileva (Chivileva 等 2023) 满足标准,分别有27和24名评估职员。(2)先前视频与当前AIGC视频之间的差距。早期视频通常涉及简单动作,常出现闪耀等底子题目,在新一代视频模型中较为少见。在本文中,为了办理先前VQA数据集未覆盖标注的新一代AIGC视频的题目,我们引入了 CRAVE-DB,此中包括来自29名评估职员主观评分的1,228个新一代AIGC视频,以提供对当前AIGC视频的稳健评估。
3 内容丰富的AIGC VQA基准
随着文本驱动视频生成模型的快速发展,当前最先进的模型在视觉质量、内容复杂性和对输入文本的理解方面与以往模型相比体现出明显差异,如图 [fig:1] 所示。这些模型大大缓解了早期模型中普遍存在的闪耀等根本题目,并取消了CLIP对基于文本输入的77个标志长度限制。挑衅现在转向评估更复杂时空场景中的内容失真以及与更复杂文本的语义一致性。然而,当前AIGC VQA数据集仍旧基于早期的一般模型,与当前内容丰富的模型之间存在明显差距。为此,我们引入了 CRAVE-DB,一个新的AIGC VQA基准,包含由最先进视频生成模型生成的复杂文本提示、内容丰富的视频以及相应的人类评分。该数据集包含由最先进视频模型生成的1,228个视频,采用410个复杂提示。每个视频的连续时间超过5秒,帧率为24 fps。对于主观反馈,每个视频由29名流类评估职员评分。我们将在以下段落介绍提示网络、视频生成和主观研究的过程。
CRAVE-DB 中提示的词云。
3.1 提示网络
CRAVE-DB 的网络。
过去的AIGC VQA数据集由前一代模型组成,此中大多数支持的提示长度受CLIP (Radford 等 2021) 的限制。在这种情况下,这些提示往往简短,难以纳入复杂的运动形貌和场景组合。比方,我们展示了不同数据集中提示的密度(每个提示的均匀单词和字符数),如表 [tab:prompt_len] 所示。我们可以了解到,大多数先前数据集中的提示仅包含十几个单词。这种固有限制使得模型在评估更复杂的语义对齐时面临重大挑衅。
为了办理这个题目,我们发起构建包含更丰富信息的提示。我们的整体流程如图 2 所示。为了确保提示具体且语义丰富,我们专注于先验密集标注的数据集,ShareGPT-4o 数据集 (陈哲等 2023) ,该数据集使用GPT-4o的高级多模态功能具体形貌视频。这个数据集包含丰富的注释,乃至需要总结才能成为清楚的提示。我们随机抽取了300个标题,并使用GPT-4 (Achiam 等 2023) 对其举行了总结,仅保留关键细节。然后举行了第一轮人工干预,以筛选出失败、冗余或不合逻辑的生成。
鉴于 ShareGPT-4o 主要关注一样平常生活场景,我们手动编写了200个更多提示以扩大动作、主题和场景的覆盖面。提示包含4个类别:风景、物体、动物和人类。风景包括常见场景(如草原、街道)、罕见环境(如火山、极光)和闻名地标。动物包括各种哺乳动物、爬行动物、鸟类、鱼类和两栖动物。物体涵盖常见的现实天下物品,而人类则包括不同年事、性别、职业和着装的人物。
随后,我们使用 GPT-4 按照模板格式结构化原始提示:“[镜头语言] + [主题形貌] + [主题动作形貌] + [场景形貌] + [附加细节形貌]”。镜头语言包括各种电影照相技巧,如倾斜镜头、平拍、推进镜头、环绕镜头、特写和全景。场景形貌包括不同天气和光照条件下的自然景观。之后,我们启动了第二轮人工干预,筛选和优化所有提示,终极确定了410个高质量提示。整体词云如图 1 所示。
CRAVE-DB 中 MOS 的分布。
3.2 视频生成
3.3 主观研究
4 内容丰富的AIGC视频评估器
4.1 总体框架
CRAVE 从三个角度评估内容丰富的AIGC视频:(1)视觉和谐性,使用传统的视频质量指标(如美学和失真)举行测量;(2)文本-视频语义对齐,通过多粒度文本-时间(MTT)融合实现;(3)运动感知一致性,这是AIGC视频中特有的动态失真,通过混合运动保真建模(HMM)捕获。总体框架如图 [fig:crave_pipeline] 所示。我们将在以下部分具体介绍每个模块。
所提出的 MTT 模块用于文本对齐的具体说明。
4.2 视觉和谐性
4.3 多粒度文本-时间融合
4.4 混合运动保真建模
与自然视频相比,AIGC视频通常包含违反物理规律的独特失真,如不规则物体和运动。尽管迩来的视频生成模型取得了明显改进,但低保真运动仍旧是一个连续的挑衅。这里,违反逻辑的运动、变形运动以及非常幅度的运动统称为“低质量”运动。为了更好地评估当前AIGC视频中的运动失真,我们提出了混合运动保真建模(HMM),它分层捕获不同粒度的运动特征。具体来说,思量到光流在非常检测中的成功应用 (Caldelli 等 2021;Agarwal 等 2020) ,我们使用从光流中提取的密集运动信息捕获低级运动模式,并结合来自动作辨认任务的全局抽象运动信息 (Kay 等 2017;Goyal 等 2017) 。实行部分后来证明了结合这两个方面的有用性。在实践中,使用预训练的 StreamFlow (S. Sun, Liu 等 2024) 提取流特征,而高层抽象运动先验则来自预训练的 Uniformer (K. Li 等 2023) 。不同分支随后输入前馈网络并通过线性头回归以获得终极输出。
4.5 监督
5 实行
5.1 实现细节
5.2 定量结果
如表 [tab:1] 和表 [tab:2] 所示,我们可以看到 CRAVE 在所提出的丰富内容数据集和 T2VQA-DB 上都取得了领先的体现。在 CRAVE-DB 上,CRAVE 显现出特别明显的优势,突显了其在评估新一代AIGC视频方面的有用性。在 T2VQA-DB 上,CRAVE 也优于从前的模型,乃至超过了基于大型语言模型(LLM)的模型,如 Q-Align 和 T2VQA,这进一步证明了其多维度设计的有用性。“Ft.” 表现需要在目标数据集上进一步微调的方法。“Bg.”、“Sub.”、“Consis”、“Aes.”、“Sm.” 分别表现配景、主体、一致性、美学和平滑度。零样本方法往往具有较低的结果,这也反映在从前的工作中 (Kou 等 2024b;S. Sun, Liang 等 2024) 。这可能是由于缺乏与人类感知的对齐或未思量AIGC视频中的动态失真。
5.3 定性结果
我们可视化了猜测 MOS 和真实 MOS 之间的差异,如增补质料所示。曲线通过四阶多项式非线性拟合获得。我们进一步展示了通过 CRAVE 评估的不同 AIGC 视频的分数,详见增补质料。
5.4 零样本排名比较
我们展示了 CRAVE 在不同 VQA 数据集上训练后对新一代视频生成模型评分的排名。如第 3.2 节所述,VideoGenEval (曾等 2024) 被选为此实行的数据源,因其相对较高的提示密度、完全不同的数据来源以及包含更新的模型。我们使用了 VideoGenEval 中的所有424个文本到视频(t2v)提示,并生成了包括迩来模型(如 (智谱 2024;圣书 2024;团队 2024;Brooks 等 2024;杨等 2024; LumaLabs 2024;字节跳动 2024;Hunyuan 2024;Runway 2024;快手 2024) 的结果。如图 [fig:rank] 所示,(a) 和 (b) 分别对应于表 [tab:1] 和表 [tab:2] 中的预训练权重。
5.5 消融研究
为了验证所提出方法的有用性,我们在 CRAVE 的设计中消融了每个组件,如表 [tab:3] 所示。下划线设置用于我们的终极模型。我们在 CRAVE-DB 和 T2VQA-DB 上举行了实行。由于 CRAVE-DB 自然包含复杂文本、丰富的运动信息和其他此类内容,我们可以发现其改进通常更为明显。我们起首探索了将文本与时间视觉信息对齐的方法。ST-Graph,即时空图,将时间维度展平为空间维度举行盘算。Temp. Attn. 表现沿附加的时间维度举行注意力盘算。Pseudo 3D Conv 受开导于 (Singer 等 2023) ,在时间维度上堆叠额外的卷积。我们可以看到,通过时间建模明显进步了有用性,广泛应用于生成任务的 Pseudo 3D Conv 在长文本时空建模方面体现出色。我们进一步研究了 MTT 的粒度,发现整合所有粒度级别可获得最佳性能。此外,我们探讨了运动感知时序建模的影响。我们的实行表明,光流提供的密集数据增强了整体性能,结合希罕的抽象时空信息提供了明显的性能提升。我们进一步探讨了光流帧数对结果的影响。具体来说,我们在处理过程中分别使用了4帧、8帧和16帧盘算光流。我们观察到,使用更多的光流帧倾向于进步准确性。鉴于准确性和效率之间的衡量,我们终极选择了16帧举行光流盘算。
6 结论
鉴于当前AIGC视频与AIGC VQA数据集之间的差距,我们引入了 CRAVE,一种有用的VQA方法,以及 CRAVE-DB,一个针对新一代AIGC视频的新基准。基于有用的多维度设计,CRAVE 在多个指标和数据集上实现了出色的人类一致性结果。CRAVE-DB 包含更丰富的内容提示和具体内容,以及广泛的主观注释,使其更靠近当前的文本驱动AIGC视频。
影响声明
本文旨在推进机器学习范畴的发展。我们的工作可能有很多社会后果,但我们以为没有须要在此特别强调任何特定的后果。
7 定性结果.
如图 [fig:mos] 所示,(a)、(b) 和 (c) 表现 T2VQA-DB 上不同模型之间的差异可视化。点越集中,差异越小。我们可以观察到,(a) 和 (b) 中的点更分散且离中央线更远。使用四阶多项式非线性拟合绘制中央线。(d) 显示了 CRAVE 对不同模型生成结果的评分。更多具体视频可以在增补质料中找到。这里,CRAVE 的直接输出未经过归一化,因此可能出现负值。
Achiam, Josh, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, et al. 2023. “Gpt-4 技术陈诉。” arXiv Preprint arXiv:2303.08774 .
Agarwal, Shruti, Hany Farid, Tarek El-Gaaly, and Ser-Nam Lim. 2020. “基于表面和行为检测深度伪造视频。” In 2020 IEEE 国际信息取证与安全研讨会 (WIFS) , 1–6. IEEE.
Blattmann, Andreas, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, et al. 2023. “稳固视频扩散:将潜伏视频扩散模型扩展到大型数据集。” arXiv Preprint arXiv:2311.15127 .
Brooks, Tim, Bill Peebles, Connor Holmes, Will DePue, Yufei Guo, Li Jing, David Schnurr, et al. 2024. “视频生成模型作为天下模拟器。” OpenAI.
ByteDance. 2024. “Seaweed Pro。” https://jimeng.jianying.com/ .
Caldelli, Roberto, Leonardo Galteri, Irene Amerini, and Alberto Del Bimbo. 2021. “基于光流的CNN用于检测未学习的深度伪造操纵。” Pattern Recognition Letters 146: 31–37.
Chai, Wenhao, Xun Guo, Gaoang Wang, and Yan Lu. 2023. “Stablevideo:文本驱动的一致性感知扩散视频编辑。” In IEEE/CVF 国际盘算机视觉会议论文集 , 23040–50.
Chen, Haoxin, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, et al. 2023. “Videocrafter1:开放扩散模型用于高质量视频生成。” arXiv Preprint arXiv:2310.19512 .
Chen, Zhe, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, et al. 2023. “InternVL:扩展视觉底子模型并对其通用视觉-语言任务举行对齐。” arXiv Preprint arXiv:2312.14238 .
Chivileva, Iya, Philip Lynch, Tomas E Ward, and Alan F Smeaton. 2023. “测量文本到视频模型输出的质量:指标和数据集。” arXiv Preprint arXiv:2309.08009 .
Gao, Fei, Dacheng Tao, Xinbo Gao, and Xuelong Li. 2019. “盲图像质量评估的学习排序。” https://arxiv.org/abs/1309.0213 .
Goyal, Raghav, Samira Ebrahimi Kahou, Vincent Michalski, Joanna Materzynska, Susanne Westphal, Heuna Kim, Valentin Haenel, et al. 2017. “‘Something Something’ 视频数据库用于学习和评估视觉知识。” In IEEE 国际盘算机视觉会议论文集 , 5842–50.
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. 2020. “去噪扩散概率模型。” 神经信息处理体系进展 33: 6840–51.
Honnibal, Matthew, Ines Montani, Sofie Van Landeghem, and Adriane Boyd. 2020. “spaCy:Python中的工业级自然语言处理。” https://doi.org/10.5281/zenodo.1212303 .
Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, and others. 2024. “Vbench:视频生成模型的综合基准套件。” In IEEE/CVF 盘算机视觉与模式辨认会议论文集 , 21807–18.
Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang, Tianxing Wu, Qingyang Jin, Nattapol Chanpaisit, Yaohui Wang, et al. 2024. “VBench:视频生成模型的综合基准套件。” In IEEE/CVF 盘算机视觉与模式辨认会议论文集 .
Hunyuan, Tencent. 2024. “HunyuanVideo:大型视频生成模型的体系框架。” https://arxiv.org/abs/2412.03603 .
Int.Telecommun.Union. 2000. “电视图像质量主观评估方法 ITU-r 发起书。” 技术陈诉
Kay, Will, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, et al. 2017. “Kinetics 人类动作视频数据集。” arXiv Preprint arXiv:1705.06950 .
Kirstain, Yuval, Adam Polyak, Uriel Singer, Shahbuland Matiana, Joe Penna, and Omer Levy. 2023. “Pick-a-Pic:文本到图像生成的用户偏好开放数据集。” 神经信息处理体系进展 36: 36652–63.
Kou, Tengchuan, Xiaohong Liu, Wei Sun, Jun Jia, Xiongkuo Min, Guangtao Zhai, and Ning Liu. 2023. “Stablevqa:用于视频稳固的深度无参考质量评估模型。” In ACM 多媒体国际会议论文集 , 1066–76.
Kou, Tengchuan, Xiaohong Liu, Zicheng Zhang, Chunyi Li, Haoning Wu, Xiongkuo Min, Guangtao Zhai, and Ning Liu. 2024a. “文本到视频质量评估的主观对齐数据集和度量。” https://arxiv.org/abs/2403.11956 .
———. 2024b. “文本到视频质量评估的主观对齐数据集和度量。” arXiv Preprint arXiv:2403.11956 .
Kuaishou. 2024. “Kling。” https://kling.kuaishou.com/ .
Lab, PKU-Yuan, and Tuzhan AI etc. 2024. “Open-Sora-Plan。” GitHub. https://doi.org/10.5281/zenodo.10948109 .
Labs, Pika. 2024. “Pika 1.5。” https://pika.art .
Li, Junnan, Dongxu Li, Caiming Xiong, and Steven Hoi. 2022. “BLIP:引导语言-图像预训练以实现同一的视觉-语言理解和生成。” In ICML .
Li, Kunchang, Yali Wang, Junhao Zhang, Peng Gao, Guanglu Song, Yu Liu, Hongsheng Li, and Yu Qiao. 2023. “Uniformer:同一卷积和自注意力举行视觉辨认。” IEEE Transactions on Pattern Analysis and Machine Intelligence 45 (10): 12581–600.
Liu, Xiaohong, Xiongkuo Min, Guangtao Zhai, Chunyi Li, Tengchuan Kou, Wei Sun, Haoning Wu, et al. 2024. “NTIRE 2024 AI生成内容质量评估挑衅。” In IEEE/CVF 盘算机视觉与模式辨认会议 (CVPR) 工作坊论文集 , 6337–62.
Liu, Yaofang, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, and Ying Shan. 2024. “Evalcrafter:基准测试和评估大型视频生成模型。” In IEEE/CVF 盘算机视觉与模式辨认会议论文集 , 22139–49.
Liu, Yuanxin, Lei Li, Shuhuai Ren, Rundong Gao, Shicheng Li, Sishuo Chen, Xu Sun, and Lu Hou. 2023. “FETV:开放范畴文本到视频生成的细粒度评估基准。” arXiv Preprint arXiv: 2311.01813 .
LumaLabs. 2024. “Dream Machine。” https://lumalabs.ai/dream-machine .
MiniMax. 2024. “Hailuo AI。” https://hailuoai.com/video .
Qu, Bowen, Xiaoyu Liang, Shangkun Sun, and Wei Gao. 2024. “探索AIGC视频质量:关注视觉和谐、视频-文本一致性和域分布差距。” arXiv Preprint arXiv:2404.13573 .
Radford, Alec, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, et al. 2021. “基于自然语言监督学习可转移的视觉模型。” In 国际机器学习会议 , 8748–63. PMLR.
Rombach, Robin, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. 2022. “通过潜伏扩散模型实现高分辨率图像合成。” In IEEE/CVF 盘算机视觉与模式辨认会议论文集 , 10684–95.
Runway. 2024. “Gen-3。” https://runwayml.com/blog/introducing-gen-3-alpha/ .
Salimans, Tim, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. 2016. “改进GAN训练技术。” 神经信息处理体系进展 29.
Series, B. 2012. “电视图像质量主观评估方法。” ITU-R BT 保举书 500 (13).
Shengshu. 2024. “Vidu。” https://www.vidu.studio/create .
Singer, Uriel, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, et al. 2023. “Make-a-Video:无需文本-视频数据的文本到视频生成。” In 第十一届国际学习表征会议 .
Sun, Shangkun, Yuanqi Chen, Yu Zhu, Guodong Guo, and Ge Li. 2022. “Skflow:使用超级核学习光流。” 神经信息处理体系进展 35: 11313–26.
Sun, Shangkun, Xiaoyu Liang, Songlin Fan, Wenxu Gao, and Wei Gao. 2024. “VE-Bench:文本驱动视频编辑质量评估的主观对齐基准套件。” In AAAI 人工智能会议论文集 .
Sun, Shangkun, Jiaming Liu, Thomas H Li, Huaxia Li, Guoqing Liu, and Wei Gao. 2024. “StreamFlow:视频序列中多帧光流估计的简化方法。” In 神经信息处理体系进展 .
Sun, Shangkun, Bowen Qu, Xiaoyu Liang, Songlin Fan, and Wei Gao. 2025. “IE-Bench:推进文本驱动图像编辑的人类感知一致性测量。” arXiv Preprint arXiv:2501.09927 .
Sun, Wei, Xiongkuo Min, Wei Lu, and Guangtao Zhai. 2022. “用于UGC视频的深度学习无参考质量评估模型。” In ACM 多媒体国际会议论文集 , 856–65.
Team, Genmo. 2024. “Mochi 1。” GitHub Repository . https://github.com/genmoai/models ; GitHub.
Teed, Zachary, and Jia Deng. 2020. “Raft:通过递归所有点场变动举行光流估计。” In 盘算机视觉–ECCV 2020:第16届欧洲会议,格拉斯哥,英国,2020年8月23–28日,会议录,第二部分 16 , 402–19. Springer.
Tongyi, Ali. 2024. “Wanxiang Video。” https://tongyi.aliyun.com/wanxiang/videoCreation .
Unterthiner, Thomas, Sjoerd Van Steenkiste, Karol Kurach, Raphael Goyal, Marcin Michalski, and Sylvain Gelly. 2018. “准确生成视频模型的技术和挑衅。” arXiv Preprint arXiv:1812.01717 .
Runway. 2024. “Gen-3。” https://runwayml.com/blog/introducing-gen-3-alpha/ .
Zeng, Ailing, Yuhang Yang, Weidong Chen, and Wei Liu. 2024. “视频生成的黎明:初步探索 SORA 类模型。” arXiv Preprint arXiv:2410.05227 .
Zheng, Zangwei, Xiangyu Peng, Tianji Yang, Chenhui Shen, Shenggui Li, Hongxin Liu, Yukun Zhou, Tianyi Li, and Yang You. 2024. “Open-Sora:使高效视频生产民主化。” https://github.com/hpcaitech/Open-Sora .
Zhipu. 2024. “青影。” https://chatglm.cn/video .
Zhu, Cunjuan, Qi Jia, Wei Chen, Yanming Guo, and Yu Liu. 2023. “深度学习在视频-文本检索中的应用:综述。” 多媒体信息检索国际期刊 12 (1): 3.
原论文:https://arxiv.org/pdf/2502.0407
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |