快手视频生成大模型“可灵”(Kling),是全球首个真正用户可用的视频生成大模型,自面世以来,凭借其无与伦比的视频生成效果,在全球范围内赢得了用户的热烈追捧与高度评价。停止目前,申请体验其内测版的用户数量已突破70万大关,累计生成的视频作品更是高达700万。 可灵在持续创新的蹊径上也从未停下脚步,在七月份举行的世界人工智能大会(WAIC)期间,可灵再次迎来重大升级。新功能包括上线web端、底子模型效果升级、图生视频支持首尾帧、增加相机镜头控制功能、单次生成时长增至10s等。
大模型落地的现实效果如何离不开用户的体验与感知,来自中科院计算所数字内容合成与伪造检测实验室的唐帆副研究员及黄子尧、徐子艺等同学对可灵AI视频生成大模型进行了测评。该团队致力于生成式AI的正向应用与反向监管工作,比年来在人工智能和图形学顶级会议和期刊(ACM TOG/CVPR等)上发表了多个图像视频生成结果。团队本次对可灵AI的评测,是为了评估现有视频生成模型能力,探索视频生成技能在学术和现实场景里的新方向和应用潜力。(本文转自 数字内容合成与伪造检测 帐号,已得到作者授权转载,本文发表在新功能上线之前,目前可灵最新功能已更新,欢迎爱好者朋友至https://klingai.kuaishou.com 体验)
六个角度:
团队重要从画面质量、内容可控与运动生成三方面进行评测,并与当下最火热的Stable Video Diffusion、Sora和Dream Machine进行比力。画面质量考量视频画面的真实感,包括细节描画的逼真度与物理世界的一致性两个角度;内容可控从多主体生成、特定内容风格与模型创造力三个角度测试;末了,从运动生成的角度测试了生成结果中动态场景的流通性和时空关系的合理性。
测评情况:
1、细节描画:超乎想象
细节决定着一个视频是否会被一眼“打假”,一年前,网上还在大呼“图像生成的场景虽然宏大,但过细一看完全是东拼西凑”。而可灵对细节的描画,超出我们的想象。
精美天然界 晶莹剔透的水珠,微微摆动的湿润绿叶,虚化的配景,这个画面真的太美了。不过这里也表现出了后续会说的一个标题——运动不符合提示词。
“一滴雨水滑落叶片的边缘,特写水珠的外貌张力和反射的光芒。”
对动物的描画也非常过细,透明的小翅膀,在花蕊上采蜜的动作,不细看像是真的一样。
“一只蜜蜂在花瓣上采蜜,特写其精致的翅膀和花粉粘附在腿上的情景。”
精准手和脸 我们知道脸部崩坏,手指抽象是生成模型的老标题了,而可灵的结果看起来不错。看起来画面中的演员真的很痛楚,完全符合我们的提示词。
“一位演员在舞台上表演悲剧角色,特写脸上的悲伤表情和流下的泪水。”
纸张纹理、手部青筋、握笔方式都描画得非常到位,甚至在纸面上留下了持续新增的笔触。
“一位画家的手在画布上过细地勾勒出人物的轮廓,特写手指的灵活运动。”
总之,可灵对细节的把控比力到位,不管是天然界的花花草草还是人的面部感情、手部动作,在视频生成领域有很大的进步。
2、物理世界:表象or内核
人工智能是否可以或许真正地明白物理世界?我们认为可灵仍旧停顿在视频的表象。我们发现它对天然界有着过细入微的观察,并且面对镜子、光影可以生成一些令人惊叹的视频,不过在视频中偶尔会发生不合理的事变。
绽放的花朵 两朵花迟钝绽放,花蕊的细节清晰可见,像真是用延时摄影拍摄的一样。 “两朵黄色的花在黑色配景下迟钝绽放,展示出精致的花瓣和花蕊。”
令人惊叹的镜子 这个视频仿佛是在真实场景中发生的,特殊是耳部动作的描画。虽然末了几秒镜子里的动作有标题,但瑕不掩瑜,整体质量非常好。
“一只狗在照镜子,配景是房间内的物品。”
越来越满的咖啡 这是一个特殊常见的画面,然而模型完全没有明白我们的意思,蒸汽不减少,咖啡却越来越多。
“一杯满是热咖啡的透明玻璃杯,逐步地冷却,蒸汽逐渐消失。”
3、想象力:生成不大概
到了可灵主打的想象力环节,我们来看看它能不能生成天马行空的内容。
海底探险 海底、发光宝藏、潜水员和海洋生物该有的元素都有了,镜头不断推进,仿佛我们也深陷海底。
科幻都市 这里的光影令人惊喜,倒影、反光都随着小猫的前进不断变化。整个场景也充满科技风,以后计划画面都可以来这找灵感了。
活灵活现的画面 这里动静之间的处理得特殊好,跃出纸面的动物、画板和画家之间的空间关系完全正确。
更具想象力 可灵没有乐成生成这个充满想象力的画面,丢失了很多元素。
“一只猫坐在一本打开的书上,书页上的笔墨围绕着猫体态成漩涡。”
总之,可灵在想象力上中规中矩,能生成让人面前一亮充满想象力的大场景,但偶尔面对过于超脱的提示词时不知道如何创意地组合各个概念。不过以现在生成的总体质量来看,再改进一下提示词,应该就可以实现想要的内容。
4、多主体:更丰富的内容
谁是狮子 可灵乐成生成了两只老虎、两只狮子,但让它生成一只老虎和一只狮子时,却生成了两只老虎。
猫狗合体 小猫小狗作为最常见的动物,可灵却分不清,第一个视频猫变身狗,第二个视频猫狗直接合体。另外可以看到,可灵不会数数但对颜色的把控到位。
“一只白猫,一只黑狗,两只黄色鸭子在一起玩。” “一只白猫,一只黑狗,两只绿色鸭子在一起玩。”
对模型来说,模拟多个角色之间的复杂交互具有挑衅性,在多主体上可灵稍显逊色,大概会生成错误的内容。
5、角色和风格:个性化生成
指定角色 可灵在软件上禁止生成现实中存在的名流,因此我们简单地实验了几个常见角色。
在角色、动作、场景上符合提示词,生成的质量还可以。
“圣诞老人将礼物递过来。”
虽然生成了猴子形象,并且吃东西的动作也很生动,但生成了一行字幕,也完全不符合我们心中孙悟空的样子。在这方面盼望国产模型可以认识更多国内文化,让用户可以生成含有优秀传统文化的视频。
指定风格 我们实验了不同的风格,模型可以或许根据提示词生成对应风格,尤其是科幻风较好。
总之,在指定角色和风格上,生成的视频还是令人满意的。不过,生成更加个性化的内容有广泛需求,比如用户本身、家养宠物。如何通过微调或无需训练的方法实现完全的定制化是一个值得深入探究的话题。
6、运动:复杂的时空关系
相对于图像生成,视频生成最大的难点就在于建模复杂的时空关系,可灵官方声明“可灵接纳3D时空联合注意力机制,可以或许更好地建模复杂时空运动,生成较大幅度运动的视频内容”。
常见运动 首先看看官方提示词的生成对比:
“一个男人骑着马在戈壁沙漠飞奔,背后美丽的斜阳,电影级别画面。”(官方)
“一个男人骑着马在戈壁沙漠飞奔,背后美丽的斜阳,电影级别画面。”(我们)
猎豹跑得没马快。
飞机飞得可以,但是没有表现出“急速俯冲和爬升”,只是常见的飞行。
“一架喷气式飞机在蓝天中做出急速俯冲和爬升的动作。”
“一只猫在书架上跳跃,册本、装饰品和其他物品之间的空间关系清晰可见。”
交互式动作 模型在拿出来还是放进去反复横跳。
看得出来,可灵对于一些常见的动作可以按照提示词生成一致的运动,但存在运动幅度较小的标题,对“飞快、急速”等词的响应有一点标题。而面对复杂场景时,可灵生成的结果也较差,无法生成对应的动作。
模型对比
可灵 vs. SVD
Stable Video Diffusion是Stability公司在2023年底公布并开源的视频生成模型,凭借其精彩的性能和应用潜力,吸引了全球技能圈的目光。由于SVD是图生视频模型,我们首先利用SDXL生成图片,再用SVD基于图片生成视频。与SVD相比,时隔半年的可灵生成质量如何?
"The waves crash against the beach, the sunset slowly sets in the distance,Beautiful view,the afterglow."(SVD)
“波浪拍打着沙岸,斜阳在远处迟钝落下,美景,余晖。”(可灵)
"A Chinese man sits at a table and eats noodles with chopsticks."(SVD)
“一个中国男人坐在桌前,用筷子吃面条。”(可灵)
可灵生成的波浪拍打沙岸、吃面条的动作非常真实,而SVD似乎只是简单的镜头移动。在视频连续性、真实性方面,可灵有着飞跃进展。
可灵 vs. Sora
本年2月,OpenAI研发的Sora横空出世,60秒的视频时长,影视级的画面质量一度盖过其它视频生成模型的风头。我们将可灵与Sora进行对比,由于Sora尚未开放测试,我们选取官方公布的测试样例进行对比,因此对比结果大概有失偏颇。
可灵生成的视频中,大象的每一步都会掀起一阵雪花,对阳光、影子都有正确的描画,虽然后面的小象出现了标题,但还是凸显出可灵对光影的明白。而Sora对猛犸象的生成更加正确,但大象背后雪花造成的烟雾略显浮夸。
"Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow-covered trees and dramatic snow-capped mountains in the distance, mid-afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field." (Sora)
“几只巨大的毛茸茸的猛犸象在白雪皑皑的草地上踩踏,它们长长的毛茸茸的皮毛在风中轻轻吹拂,远处白雪皑皑的树木和壮观的雪山,午后的阳光与缕缕的云彩和远处的太阳高高地营造出暖和的光芒。低相机视角令人惊叹,以精美的摄影捕获大型毛茸茸的哺乳动物,深度。”(可灵)
在Sora展示的一个失败例子中,可灵也失败了。同样是让篮球爆炸,Sora虽然在末端又冒出了一个篮球,但确实让篮球爆炸了,而可灵的篮球像橡皮泥捏的。
"Basketball through hoop then explodes."(Sora)
相比于Sora,可灵没有完全败下阵来,二者都有可圈可点的地方,等Sora放出Demo才气进行更全面的对比。
可灵 vs. Dream Machine
6月13日,Luma AI发布视频生成模型Dream Machine,用户可以通过笔墨或图片生成高质量的高清视频。不需要申请,登录就可以免费利用,但目前限定每天生成十个视频。下面是它与可灵生成的视频对比(利用Dream Machine文生视频功能):
"It was raining heavily outside the window, and the rain was sliding down the window, leaving water lines."(Dream Machine)
“窗外下着大雨,雨水在窗户上滑落,留下水流纹路。”(可灵)
"A cute cat is looking at a mirror through the water surface with fish swimming in it."(Dream Machine)
“一只可爱的猫通过水面照镜子,水里有游动的鱼。”(可灵)
在上面两个例子中,可灵在画面显现、物理规律上还是完全胜于Dream Machine的。在用户利用上,可灵的生成速率比Dream Machine慢,可灵通常是3分钟生成一个5秒的视频,而Dream Machine官方称2分钟即可生成120帧5秒的视频。
合成 vs. 检测
视频生成技能不断进步,生成的视频质量越来越接近真实内容。这也引发了对视频内容真实性的关注,特殊是在新闻、法律和安全等敏感领域。我们用中科睿鉴研发的视频伪造检测小程序对可灵生成的40个视频进行检测,在检测模型未针对可灵模型进行调优时,检出率为85%。
被辨认为真的视频画面
我们利用可灵生成的这些视频,具有逼真的画面,较高的一致性和连续性,很少存在抖动情况。被检测出来的视频通过肉眼看也很难判别真伪,大多数视频很少存在失真、变形。可灵AI视频生成大模型的表现展示了AI在视频生成领域的巨大潜力,同时也突显了确保数字内容真实性的挑衅。这一领域的将来发展将是技能创新和伦理责任并行的结果。
总结
总的来说,可灵的生成质量还是很不错的,支持中文输入极大进步了用户体验感。视频时长、分辨率、流通度大幅提升,在细节、人体上有着很大进步,在动作幅度、想象力上还略显不足。本文接纳的提示词都不是颠末经心挑选的,有时甚至能达到随手出片的效果。
本年,Sora、可灵和Dream Machine等高质量视频生成模型不断涌现,各大科技机构纷纷投入视频生成赛道。目前,视频生成落地面临多重难点,快速高质量的生成技能、昂贵的算力成本都是亟需解决的标题。在这一配景下,快手推出面向公众开放测试的产物级应用,一键生成视频,直接剪辑发布,形成了一套完整流程,极大推动了视频生成的现实落地。在将来,如何形成一个完满的AIGC生态体系,以及完整的财产链与现有产物进行联动,都是长期关注的焦点。另外,随着Sora类的生成技能不断成熟,整个视频生成研究领域会进入到下一个阶段:不仅会关凝视频内容的真实性,还会更加注器重频中的物理规律和运动幅度等“幻觉”标题。这意味着,将来的视频生成技能不仅要在视觉上令人信服,还要在物理动作和逻辑上保持一致,以产生更加天然和流通的视觉效果。别的,随着技能的发展,我们还大概看到更多的交互式视频内容生成,其中用户可以指定某些参数或直接与视频内容互动,从而创造出独一无二的个性化视频体验。这将极大地扩展视频生成技能的应用范围,比如娱乐、教育、专业培训和模拟等多个领域。
总之,视频生成技能的将来发展将不仅仅局限于进步图像质量,更将涉及到如何创造出符合物理规律、具有高度互动性和个性化的视频内容。这将是一个充满挑衅但也极具潜力的新阶段。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |