Anything in Any Scene:无缝融入任何场景,实现传神视频对象插入技术 ...

打印 上一主题 下一主题

主题 665|帖子 665|积分 1995

 人工智能咨询培训老师叶梓 转载标明出处

现实天下的视频捕获固然因其真实性而宝贵,但常常受限于长尾分布的题目,即常见场景过度出现,而关键的罕见场景却鲜有记录。这导致了所谓的"分布外题目",在模仿复杂环境光线、几何形状或到达高度传神结果方面存在局限。传统的视频收集和编辑方法在解决这些限制时常常是不切现实或资本过高。来自小鹏汽车公司的研究团队提出了"Anything in Any Scene"框架,它可以或许将任何对象无缝插入现有动态视频中,同时强调物理真实性。
   
     模仿视频帧中的错误估计光照环境、错误的对象放置位置和不真实的纹理风格的例子    框架

   
     “Anything in Any Scene”框架    Figure 2 框架是为了实现传神的视频对象插入而设计的。这个框架包含几个关键组件,它们协同工作以确保插入的对象在目标视频中既真实又调和。
资产库构建:首先,必要构建场景视频和对象网格的资产库。这包罗使用视觉数据查询引擎来检索相关的视频片段,以及使用Houdini Engine和NeRF技术生成对象的3D网格模子。
对象放置与稳定化:框架中的一个焦点部分是确定对象在视频中的正确位置,并确保它在连续帧中稳定存在。这涉及到思量场景中其他对象的遮挡,并使用光流跟踪来优化对象在视频中的活动轨迹。
光照估计与阴影生成:为了增强现实感,框架必要准确估计场景中的光照条件,并为插入的对象生成传神的阴影。这包罗使用HDR全景图像重建技术和3D图形应用程序来渲染阴影。
风格迁徙网络:为了最大化视频输出的传神度,框架采取了风格迁徙网络来细化视频输出。这个网络可以调整插入对象的风格,使其与背景视频的风格一致,从而提高团体的视觉结果。
结果验证:通过人类评分和FID评分对生成的视频举行评估,确保视频的传神度和质量。
资产库构建

创建和管理一个包含丰富场景视频和对象网格的资产库是实现高质量视频合成的条件。资产库的构建涉及两个焦点技术:视觉数据查询引擎的开发以及对象网格的生成。视觉数据查询引擎使用视觉词汇袋方法,通过语义分割和特性提取,快速检索与特定视觉形貌符相匹配的视频片段。而对象网格的生成则通过Houdini Engine和基于Neural Radiance Fields (NeRF)的重建技术,生成具有高度传神物理特性和复杂几何结构的对象模子。这些技术的结合,为视频中的对象插入提供了须要的资源和工具,确保了合成视频的几何真实性、光照真实性和照片级真实性。
对象放置与稳定化

在构建传神视频对象插入框架中,对象放置和稳定化是确保对象与背景视频无缝融合的关键步骤。首先,对象放置必要确定视频中每一帧的插入位置,这涉及到对场景的深入理解,包罗场景中已有对象的位置和潜在的遮挡关系。通过使用语义分割技术,系统可以或许识别进场景中哪些地域适合放置新对象,从而避免不自然的遮挡现象。
为了实现对象的稳定化,系统采取了光流跟踪技术来分析连续帧之间的像素级活动。通过这种方式,系统可以或许预测对象在后续帧中的位置,确保对象在视频播放过程中的活动看起来自然流畅。别的,还必要对摄像机的旋转和平移举行优化,以减少由于视角变化导致的投影偏差。
在现实操作中,系统首先在参考帧中确定对象的初始位置,通常是将对象放置在天下坐标系的原点,即摄像机的位置。然后,使用摄像机的内参矩阵和每帧的摄像机姿态,将这个位置投影到像素坐标系中。接下来系统会评估场景的语义分割掩模,以确保选择的放置点不会与场景中其他对象发生遮挡。
最后通过优化算法调整摄像机姿态,确保在连续帧中对象的放置点可以或许与光流跟踪结果相匹配,从而实现对象在视频中的稳定体现。这个过程必要综合思量多个因素,包罗场景的3D结构、摄像机的活动以及对象与场景元素之间的相对位置,以确保终极的视频结果既传神又连贯。
   
     驾驶场景视频的对象放置示例。第一帧视频、估计的分割掩模以及3D场景中的对象放置位置   

光照估计与阴影生成

在视频对象插入过程中,光照估计和阴影生成对于实现传神渲染至关紧张。为了确保插入的对象在视觉上与场景融为一体,系统必须准确模仿场景中的光照条件。这包罗对天空和环境光照的高动态范围(HDR)图像举行重建,以便捕捉场景中光照的细微差别。
系统使用图像修复网络来推断全景天空图像,填补由于相机视野限制而缺失的部分。通过天空HDR重建网络,将全景天空图像转换成HDR格式,从而更准确地体现太阳和天空的亮度分布。别的,系统还采取LDR到HDR的转换网络,从场景的低动态范围(LDR)侧视图图像中恢复HDR环境图像,这些图像随后被无缝拼接成一个完备的HDR全景环境图像。
   
     原始天空图像、重建的HDR图像及其相关的太阳光照分布图   
通过结合HDR天空图像和环境图像,系统可以或许为插入的对象生成一致且传神的光照结果。别的,系统还使用估计出的HDR天空图像来渲染对象的阴影,使用3D图形应用程序Vulkan来实现高效的计算和传神的渲染结果。阴影的准确渲染对于增强对象的三维感和场景的一致性至关紧张。
   
     为插入对象生成的阴影的例子   
在这个过程中,系统必要思量光源的位置、强度和颜色,以及它们如何与场景和插入的对象相互作用。通过这种方式,无论场景是户外的自然光照环境照旧室内的人工光照条件,系统都可以或许生成具有高度真实感的光照和阴影结果,使插入的对象在视觉上与背景视频无缝融合。
风格迁徙网络

在对象放置和光照阴影生成之后,为了进一步提升视频的传神度,"Anything in Any Scene" 框架采取了一种风格迁徙网络来实现照片级真实感的视频输出。风格迁徙技术的目标是调整插入对象的表面,使其与背景视频的风格和视觉特性相匹配,从而减少视觉上的不一致性。
风格迁徙网络采取了由粗到细的机制,这涉及到两个网络:一个粗网络和一个细化网络。粗网络首先对远景对象举行初步的风格调整,生成一个大致的预测图像。这个预测提供了一个底子,但大概在细节上还不敷风雅。随后,细化网络在这个底子上进一步工作,使用扩张卷积层来增强图像的细节,生成终极的风雅化结果。
在训练这些网络时,采取了Wasserstein生成对抗网络(WGAN)的损失函数,这有助于生成更加传神和一致的图像。别的,为了提高训练的稳定性和结果,还引入了梯度惩罚项,这有助于网络更好地学习生成与真实图像分布一致的输出。
风格迁徙网络的输入包罗远景对象的图像、背景图像以及远景地域的分割掩模。通过这种方式,网络可以或许专注于远景对象,并有效地将其风格与背景融合。输出的是一个经过风格迁徙处理惩罚后的图像,此中插入的对象在色彩、纹理和光照上与四周环境调和统一,从而在视觉上实现了高度的真实感。
通过风格迁徙,"Anything in Any Scene" 框架可以或许有效地解决模仿视频中大概出现的不真实感题目,如光照不一致、颜色偏差等,确保终极的视频输出在视觉上与真实捕获的视频难以区分。这种技术的应用不但提升了视频数据增强的质量,也为虚拟现实、视频编辑和其他视频中心应用提供了强大的支持。
实行

作者采取了两种评估指标来量化生成模仿视频的质量:
Human Score:通过人类A/B测试来权衡,即测试加入者在比较两种方法结果时,更倾向于哪一种的比例。这提供了一个主观但直接的传神度评估。
Frechet Inception Distance (FID):这是一种客观的度量,通过比较生成图像与真实图像分布之间的差别来评估生成图像的传神度和多样性。FID得分越低,体现生成图像与真实图像越相似。
为了验证方法的有效性,作者使用了包罗室表里场景视频数据集举行评估:
Outdoor Scene Video:使用了PandaSet数据集,这是一个多模态主动驾驶场景数据集,包含了不同时间和睦候条件下的场景。
Indoor Scene Video:使用了ScanNet++数据集,这是一个大规模的室内场景数据集,由3D扫描真实环境创建。
作者对比了不同的风格迁徙网络在他们的框架中的结果,包罗基于CNN的DoveNet、基于transformer的StyTR2和基于扩散模子的PHDiffusion,以及他们自己提出的方法。实行结果体现,他们提出的风格迁徙网络在FID得分上最低,人类评分最高,超越了其他替代方法。
   
     使用PandaSet数据集的不同风格迁徙网络对模仿视频帧的定性比较      
     在PandaSet数据集下,不同渲染条件下模仿视频帧的定性比较   
   
     不同风格迁徙网络在“Anything in Any Scene”框架中的实行结果   

为了评估框架中每个模块的有效性,作者举行了消融研究,逐个移除框架中的模块(如对象放置、HDR图像重建、阴影生成和风格迁徙),然后评估性能变化。结果表明,移除任何一个模块都会降低视频的传神度,尤其是在人类评分中更为明显。
   
     “Anything in Any Scene”框架中模块消融分析的实行结果   

作者还探讨了使用他们的框架生成的合成图像用于数据增强,以改善长尾分布题目。他们在CODA数据集上举行了评估,这是一个包含1500个真实天下驾驶场景和30多个对象种别的数据集。实行结果表明,使用增强数据集训练的模子在所有种别上的平均精度(mAP)有所提高。
   
     使用原始CODA数据集图像与使用我们的“Anything in Any Scene”框架增强的图像训练的YOLOX模子的性能   
通过这些详细的实行评估,证实了"Anything in Any Scene"框架不但可以或许生成高质量的传神视频,还可以或许通过数据增强提高卑鄙使命(如目标检测)的性能。这些实行结果为该框架的有效性和应用潜力提供了有力的证据。

论文链接:https://arxiv.org/abs/2401.17509



免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

用多少眼泪才能让你相信

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表