Transformer和Mamba强强联合!最新肴杂架构全面开源,推理速率狂飙8倍 ...

十念  金牌会员 | 2024-8-10 22:38:14 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 567|帖子 567|积分 1701

近来发现,将Mamba和Transformer模块肴杂利用,效果会比单独利用好许多,这是因为该方法联合了Mamba的长序列处置惩罚本领和Transformer的建模本领,可以显著提升盘算效率和模子性能。
典型案例如台甫鼎鼎的Jamba:Jamba利用Transformer架构的元素增强Mamba 结构化状态空间模子技术,提供了 256K 上下文窗口,吞吐量直接超了Transformer三倍。
除Jamba外,近日又有不少最新提出的Transformer联合Mamba的研究,效果都很赞,比如Mamba-2-Hybrid,推理速率比Transformer快8倍。
我从这些最新研究中挑选了8个高质量结果供同学们参考学习,全部都是已开源可复现,资助各位探求灵感、打磨论文。
论文原文+开源代码必要的同学看文末

An Empirical Study of Mamba-based Language Models

方法:本文主要研究了基于Mamba的选择性状态空间模子与Transformer模子的联合,提出了一种肴杂SSM-Transformer模子,即Mamba-2-Hybrid,通过将Mamba、自注意力和MLP层组合起来,在所有常见基准测试中都优于Transformer模子。


创新点:


  • 提出了肴杂SSM-Transformer模子的概念,这种模子由Mamba-2、自注意力和MLP层构成。
  • 提出了Mamba-2-Hybrid模子扩展到支持16K、32K和128K上下文长度的方法。在推理时,Mamba-2-Hybrid模子猜测生成一个token的速率可能比Transformer快达8倍;在23个长上下文评估中,16K和32K模子与Transformer基准模子相称甚至超过其性能。
  • 证明了Mamba-2-Hybrid模子在长上下文任务中的泛化本领。通过在Phonebook查找任务中的体现,发现将Mamba-2-Hybrid扩展到支持128K上下文可以完美执行任务,即使电话簿中包含超过150K个标记。


Dimba: Transformer-Mamba Diffusion Models

方法:Dimba 是一种全新的文本到图像扩散模子,它采用了一种联合了 Transformer 和 Mamba 元素的独特肴杂架构。具体来说,Dimba 在 Transformer 层和 Mamba 层之间交替顺序堆叠块,并通过交叉关注层整合条件信息,从而充实利用了两种架构范式的上风。


创新点:


  • 引入了一个新的文本到图像扩散模子,采用了Transformer和Mamba元素的肴杂架构。Dimba模子通过在Transformer和Mamba层之间交替堆叠块,并通过交叉注意力层整合条件信息,充实发挥了两种架构范式的上风。
  • 先容了一种新的状态空间模子,即Mamba,它在处置惩罚序列数据方面具有高效性和模子灵活性的上风。Mamba在SSM中引入了时变参数,并提出了一种硬件感知的算法,实现了高效的练习和推理。


Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting

方法:本文探索时间序列数据中Mamba和Transformer架构的融合潜力,提出了一种肴杂框架Mambaformer,通过内部整合Mamba和Transformer的上风实现长短范围的时间序列猜测,实验证明Mambaformer家族在长短范围时间序列猜测问题上优于Mamba和Transformer。


创新点:


  • 作者提出了一种肴杂架构,该架构联合了Mamba和Transformer模子以举行时间序列猜测。
  • 核心的Mambaformer层将Mamba层和自注意力层交替分列,以联合Mamba和Transformer的长处。注意力层捕捉时间序列数据中的短期依赖性,而Mamba层则增强了捕捉恒久依赖性的本领。这一层显著提高了Mambaformer系列在长短时范围时间序列猜测中的性能。


PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis

方法:本文提出一种新的点云分析方法PoinTramba,通过将Transformer和Mamba的上风相联合,实现了盘算复杂度和分析性能之间的平衡,同时引入了双向告急性感知排序算法,进一步提高了性能,实验效果表明该方法在点云分析领域取得了最新的最优结果。


创新点:


  • PoinTramba:这是一个联合了Transformer和Mamba的肴杂框架,用于点云分析。通过联合这两种架构,PoinTramba在盘算复杂性和分析性能之间取得了杰出的平衡。
  • 为了解决点云随机排序对Mamba性能的负面影响,作者引入了一种新的双向告急性感知排序策略。


关注下方《学姐带你玩AI》
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

十念

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表