论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
人工智能
›
人工智能
›
AIGC行业趋势:Sora横空出世,向多模态应用加速迈进 ...
AIGC行业趋势:Sora横空出世,向多模态应用加速迈进
雁过留声
金牌会员
|
2024-6-15 00:02:35
|
显示全部楼层
|
阅读模式
楼主
主题
774
|
帖子
774
|
积分
2322
文/浦银国际证券
近期,OpenAI的Sora的横空出世再一次引发市场对AIGC的关注,文生视频范畴取得庞大突破,结果远超预期。我们将围绕Sora的核心优势、技能特点、行业影响、将来趋势等方面进行论述。
相较于此前的文生视频模子,Sora取得哪些突破?
近期,OpenAI发布了文生视频模子Sora,可以用笔墨指令生发展达1分钟的高清视频。相较于此前市场上的同类模子,如Runway、Pika等,Sora的生成结果有大幅提升,远超预期:
首先,视频长度方面,Sora可以生发展达60秒的视频,长度远宏大于其他AI视频模子的几秒钟长度。
其次,Sora在视频内容质量稳定性方面有大幅的提升,镜头多角度切换,视频中的主角和配景能够保持高度一致性和稳定性。
此外,Sora还展示了其对物理天下部门规律的理解,这也是一庞大突破,乃至能够实现肯定水平的物理交互。
Sora的核心优势和技能特点体现在哪些方面?
Sora的技能优势在于“Patches”和深度语言理解。Sora是一个在不同时长、分辨率和宽高比的视频及图像上练习而成的扩散模子,同时接纳了Transformer架构。Sora模子的技能优势和特点重要在于:
视觉数据Patches化:相较于大语音模子把全部的文本、符号、代码都抽象为Tokens,Sora则把视频抽象为Patches(补片),是一种具备高度扩展性且适用于视频和图片生成式模子练习的有效表示;
视频压缩网络(Video compression network):将原始视频进行压缩,从而低沉视觉数据维度,用于练习并生成视频;
时空补片技能(Spacetime latent patches):给定一个压缩的输入视频,模子提取一系列时空补片(patches),用于对不同分辨率、时长和长宽比的视频和图像进行练习;
扩展Transformer视频生成:Sora是一个扩散Transformer模子,通过输入噪声patches练习来预测除噪的原始patches。OpenAI在这项研究中发现,扩散型Transformer同样能在视频模子范畴中完成高效扩展;
视频多样化:相较于一些模子使用尺度尺寸视频用于练习或生成,Sora能够处理不同分辨率、时长、宽高比的视频,在采样灵活性、改进框架和构图方面有明显优势;
语言理解:基于GPT模子的深度语言理解,能够更加正确地理解提示词所表达的真实需求;
图生视频、视频生视频:除了文生视频外,Sora也能够通过输入图像和视频用于生成视频,能够实现静态图片动态化、视频向前和向后拓展、视频编辑等本领。
Sora模子对哪些行业影响更大?
Sora最直接的影响重要是对视频行业造成冲击,这将对于广告业、电影预报片、短视频行业以及游戏带来颠覆。Sora大大低沉了视频制作的门槛和成本。
对于国内AI创业公司的影响:和ChatGPT一样,我们以为Sora的出现也会吸引国内玩家追随,但由于文生视频模子的练习难度和成本更大,准入门槛也进一步提高。
Sora影响最大的将是短视频行业,将来或将极大地提升内容供给及创作质量,尤其是流量热门驱动的内容,或将进入“全民创作”时代。同时,文生视频技能或将为当下热门的短剧市场带来变数,短剧重心有望回归高质量剧本创作。
长视频由于对内容质量等专业化要求较高,AI生成视频在精准度、可编辑性等方面仍需进一步打磨,高额的成本也或是短期应用落地阻碍,但恒久来看其将来发展空间足够广阔。
对于游戏行业,Sora模子有助于进一步提高开发服从。文生视频本领可低沉游戏CG和PV制作成本,可用于丰富游戏剧情和故事情节,提升玩家代入感。
视频相较于笔墨而言,对于算力的需求将会是几何式的增长。我们以为算力限定可能是影响文生视频类应用开放使用的重要因素。
2024年AIGC行业有哪些趋势?
多模态模子或在2024年迎来爆发。此前大模子在各个范畴的应用,重要集中在文生文、文生图之上,而在文生视频范畴却进步缓慢。此次文生视频模子Sora的发布,将给长短视频,游戏和广告行业带来颠覆性创新。随着文生图、图片对话技能的成熟,文生视频已成为多模态大模子下一步发展的重点。大模子范畴的竞争将进一步白热化,多模态大模子将成为生成式AI的重点发展方向,并有望推动本轮AI行情进一步扩散。
除了在计算机视觉、天然语言处理等特定范畴模子的发展,多模态大模子的进一步交叉融合或将成为将来重要的应用方向。将来人与呆板之间的交互方式将更加丰富,或通过笔墨、视觉、语音等多维度沟通,进而提升服从。AI所创造的虚拟天下与现实天下的边界渐渐模糊,渐渐向AGI方向迈进。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
雁过留声
金牌会员
这个人很懒什么都没写!
楼主热帖
阿里云体验有奖:如何将 PolarDB-X 与 ...
XShell免费版的安装配置教程以及使用教 ...
【如何优化她】教你如何定位不合理的SQ ...
嵌入式数据库简介
微服务大行其道的今天,Service Mesh是 ...
Elasticsearch 入门实战(5)--Java API ...
day02-代码实现01
鸿蒙3.0来了,这次,我真的想批评鸿蒙 ...
十年技术进阶路,让我明白了三件要事( ...
常用类-LocalDate、LocalTime、LocalDa ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表