十念 发表于 2024-8-10 22:38:14

Transformer和Mamba强强联合!最新肴杂架构全面开源,推理速率狂飙8倍

近来发现,将Mamba和Transformer模块肴杂利用,效果会比单独利用好许多,这是因为该方法联合了Mamba的长序列处置惩罚本领和Transformer的建模本领,可以显著提升盘算效率和模子性能。
典型案例如台甫鼎鼎的Jamba:Jamba利用Transformer架构的元素增强Mamba 结构化状态空间模子技术,提供了 256K 上下文窗口,吞吐量直接超了Transformer三倍。
除Jamba外,近日又有不少最新提出的Transformer联合Mamba的研究,效果都很赞,比如Mamba-2-Hybrid,推理速率比Transformer快8倍。
我从这些最新研究中挑选了8个高质量结果供同学们参考学习,全部都是已开源可复现,资助各位探求灵感、打磨论文。
论文原文+开源代码必要的同学看文末

An Empirical Study of Mamba-based Language Models

方法:本文主要研究了基于Mamba的选择性状态空间模子与Transformer模子的联合,提出了一种肴杂SSM-Transformer模子,即Mamba-2-Hybrid,通过将Mamba、自注意力和MLP层组合起来,在所有常见基准测试中都优于Transformer模子。

https://img-blog.csdnimg.cn/img_convert/fc0c23ec5a89cca7e04eda79a0df91be.png
创新点:


[*] 提出了肴杂SSM-Transformer模子的概念,这种模子由Mamba-2、自注意力和MLP层构成。
[*] 提出了Mamba-2-Hybrid模子扩展到支持16K、32K和128K上下文长度的方法。在推理时,Mamba-2-Hybrid模子猜测生成一个token的速率可能比Transformer快达8倍;在23个长上下文评估中,16K和32K模子与Transformer基准模子相称甚至超过其性能。
[*] 证明了Mamba-2-Hybrid模子在长上下文任务中的泛化本领。通过在Phonebook查找任务中的体现,发现将Mamba-2-Hybrid扩展到支持128K上下文可以完美执行任务,即使电话簿中包含超过150K个标记。

https://img-blog.csdnimg.cn/img_convert/8a5e87eb3ff0c834a3fb2bc5e17f427b.png
Dimba: Transformer-Mamba Diffusion Models

方法:Dimba 是一种全新的文本到图像扩散模子,它采用了一种联合了 Transformer 和 Mamba 元素的独特肴杂架构。具体来说,Dimba 在 Transformer 层和 Mamba 层之间交替顺序堆叠块,并通过交叉关注层整合条件信息,从而充实利用了两种架构范式的上风。

https://img-blog.csdnimg.cn/img_convert/adb528a8d3f4dbd51425b3fb60cb428a.png
创新点:


[*] 引入了一个新的文本到图像扩散模子,采用了Transformer和Mamba元素的肴杂架构。Dimba模子通过在Transformer和Mamba层之间交替堆叠块,并通过交叉注意力层整合条件信息,充实发挥了两种架构范式的上风。
[*] 先容了一种新的状态空间模子,即Mamba,它在处置惩罚序列数据方面具有高效性和模子灵活性的上风。Mamba在SSM中引入了时变参数,并提出了一种硬件感知的算法,实现了高效的练习和推理。

https://img-blog.csdnimg.cn/img_convert/88ece6372645af2a63091ba9d24274be.png
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting

方法:本文探索时间序列数据中Mamba和Transformer架构的融合潜力,提出了一种肴杂框架Mambaformer,通过内部整合Mamba和Transformer的上风实现长短范围的时间序列猜测,实验证明Mambaformer家族在长短范围时间序列猜测问题上优于Mamba和Transformer。

https://img-blog.csdnimg.cn/img_convert/88b20c4e35f90fd4edfa061e3ba4a0c1.png
创新点:


[*] 作者提出了一种肴杂架构,该架构联合了Mamba和Transformer模子以举行时间序列猜测。
[*] 核心的Mambaformer层将Mamba层和自注意力层交替分列,以联合Mamba和Transformer的长处。注意力层捕捉时间序列数据中的短期依赖性,而Mamba层则增强了捕捉恒久依赖性的本领。这一层显著提高了Mambaformer系列在长短时范围时间序列猜测中的性能。

https://img-blog.csdnimg.cn/img_convert/20979cf2220861b75b93816b241b0527.png
PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis

方法:本文提出一种新的点云分析方法PoinTramba,通过将Transformer和Mamba的上风相联合,实现了盘算复杂度和分析性能之间的平衡,同时引入了双向告急性感知排序算法,进一步提高了性能,实验效果表明该方法在点云分析领域取得了最新的最优结果。

https://img-blog.csdnimg.cn/img_convert/8b90aaf2819a94b71b39e8e3027e8da5.png
创新点:


[*] PoinTramba:这是一个联合了Transformer和Mamba的肴杂框架,用于点云分析。通过联合这两种架构,PoinTramba在盘算复杂性和分析性能之间取得了杰出的平衡。
[*] 为了解决点云随机排序对Mamba性能的负面影响,作者引入了一种新的双向告急性感知排序策略。

https://img-blog.csdnimg.cn/img_convert/496a42220643a0a3cc5a8028e35c2099.png
关注下方《学姐带你玩AI》
页: [1]
查看完整版本: Transformer和Mamba强强联合!最新肴杂架构全面开源,推理速率狂飙8倍