去皮卡多 发表于 2024-10-8 05:31:38

每日AIGC最新希望(57):小红书提出视频理解模型VideoLLM-MoD、香港大学提出

Diffusion Models专栏文章汇总:入门与实战
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation

https://i-blog.csdnimg.cn/direct/4ba5b419d80f413288d2c3d124798c67.png
随着对视频语言模型理解本领的需求不停增长,研究人员面对着如何同时进步视觉剖析和效率的巨大挑衅。现有的大型视觉语言模型在视频流处理场景中常常以高计算和内存成本为代价来增加视图标记的数目。为此,在本文中,我们提出了一种新方法,定名为VIDEOLLM-MoD(Mixture-of-Depths Vision Computation),旨在通过利用冗余视觉标记来进步模型效率,而不是简朴减少视图标记的数目。该方法通过跳过大量视觉标记的计算,从而在保持或进步性能的同时,显著节省计算资源和时间,达到约42%的时间节省和30%的内存节省。我

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 每日AIGC最新希望(57):小红书提出视频理解模型VideoLLM-MoD、香港大学提出