云原生Transformer和Mamba强强联合！最新肴杂架构全面开源，推理速率狂飙8倍

十念发表于 2024-8-10 22:38:14

Transformer和Mamba强强联合！最新肴杂架构全面开源，推理速率狂飙8倍

近来发现，将Mamba和Transformer模块肴杂利用，效果会比单独利用好许多，这是因为该方法联合了Mamba的长序列处置惩罚本领和Transformer的建模本领，可以显著提升盘算效率和模子性能。
典型案例如台甫鼎鼎的Jamba：Jamba利用Transformer架构的元素增强Mamba 结构化状态空间模子技术，提供了 256K 上下文窗口，吞吐量直接超了Transformer三倍。
除Jamba外，近日又有不少最新提出的Transformer联合Mamba的研究，效果都很赞，比如Mamba-2-Hybrid，推理速率比Transformer快8倍。
我从这些最新研究中挑选了8个高质量结果供同学们参考学习，全部都是已开源可复现，资助各位探求灵感、打磨论文。
论文原文+开源代码必要的同学看文末

An Empirical Study of Mamba-based Language Models

方法：本文主要研究了基于Mamba的选择性状态空间模子与Transformer模子的联合，提出了一种肴杂SSM-Transformer模子，即Mamba-2-Hybrid，通过将Mamba、自注意力和MLP层组合起来，在所有常见基准测试中都优于Transformer模子。

https://img-blog.csdnimg.cn/img_convert/fc0c23ec5a89cca7e04eda79a0df91be.png
创新点：

[*] 提出了肴杂SSM-Transformer模子的概念，这种模子由Mamba-2、自注意力和MLP层构成。
[*] 提出了Mamba-2-Hybrid模子扩展到支持16K、32K和128K上下文长度的方法。在推理时，Mamba-2-Hybrid模子猜测生成一个token的速率可能比Transformer快达8倍；在23个长上下文评估中，16K和32K模子与Transformer基准模子相称甚至超过其性能。
[*] 证明了Mamba-2-Hybrid模子在长上下文任务中的泛化本领。通过在Phonebook查找任务中的体现，发现将Mamba-2-Hybrid扩展到支持128K上下文可以完美执行任务，即使电话簿中包含超过150K个标记。

https://img-blog.csdnimg.cn/img_convert/8a5e87eb3ff0c834a3fb2bc5e17f427b.png
Dimba: Transformer-Mamba Diffusion Models

方法：Dimba 是一种全新的文本到图像扩散模子，它采用了一种联合了 Transformer 和 Mamba 元素的独特肴杂架构。具体来说，Dimba 在 Transformer 层和 Mamba 层之间交替顺序堆叠块，并通过交叉关注层整合条件信息，从而充实利用了两种架构范式的上风。

https://img-blog.csdnimg.cn/img_convert/adb528a8d3f4dbd51425b3fb60cb428a.png
创新点：

[*] 引入了一个新的文本到图像扩散模子，采用了Transformer和Mamba元素的肴杂架构。Dimba模子通过在Transformer和Mamba层之间交替堆叠块，并通过交叉注意力层整合条件信息，充实发挥了两种架构范式的上风。
[*] 先容了一种新的状态空间模子，即Mamba，它在处置惩罚序列数据方面具有高效性和模子灵活性的上风。Mamba在SSM中引入了时变参数，并提出了一种硬件感知的算法，实现了高效的练习和推理。

https://img-blog.csdnimg.cn/img_convert/88ece6372645af2a63091ba9d24274be.png
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting

方法：本文探索时间序列数据中Mamba和Transformer架构的融合潜力，提出了一种肴杂框架Mambaformer，通过内部整合Mamba和Transformer的上风实现长短范围的时间序列猜测，实验证明Mambaformer家族在长短范围时间序列猜测问题上优于Mamba和Transformer。

https://img-blog.csdnimg.cn/img_convert/88b20c4e35f90fd4edfa061e3ba4a0c1.png
创新点：

[*] 作者提出了一种肴杂架构，该架构联合了Mamba和Transformer模子以举行时间序列猜测。
[*] 核心的Mambaformer层将Mamba层和自注意力层交替分列，以联合Mamba和Transformer的长处。注意力层捕捉时间序列数据中的短期依赖性，而Mamba层则增强了捕捉恒久依赖性的本领。这一层显著提高了Mambaformer系列在长短时范围时间序列猜测中的性能。

https://img-blog.csdnimg.cn/img_convert/20979cf2220861b75b93816b241b0527.png
PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis

方法：本文提出一种新的点云分析方法PoinTramba，通过将Transformer和Mamba的上风相联合，实现了盘算复杂度和分析性能之间的平衡，同时引入了双向告急性感知排序算法，进一步提高了性能，实验效果表明该方法在点云分析领域取得了最新的最优结果。

https://img-blog.csdnimg.cn/img_convert/8b90aaf2819a94b71b39e8e3027e8da5.png
创新点：

[*] PoinTramba：这是一个联合了Transformer和Mamba的肴杂框架，用于点云分析。通过联合这两种架构，PoinTramba在盘算复杂性和分析性能之间取得了杰出的平衡。
[*] 为了解决点云随机排序对Mamba性能的负面影响，作者引入了一种新的双向告急性感知排序策略。

https://img-blog.csdnimg.cn/img_convert/496a42220643a0a3cc5a8028e35c2099.png
关注下方《学姐带你玩AI》

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

Transformer和Mamba强强联合！最新肴杂架构全面开源，推理速率狂飙8倍