ToB企服应用市场:ToB评测及商务社交产业平台

标题: Transformer和Mamba强强联合!最新肴杂架构全面开源,推理速率狂飙8倍 [打印本页]

作者: 十念    时间: 2024-8-10 22:38
标题: Transformer和Mamba强强联合!最新肴杂架构全面开源,推理速率狂飙8倍
近来发现,将Mamba和Transformer模块肴杂利用,效果会比单独利用好许多,这是因为该方法联合了Mamba的长序列处置惩罚本领和Transformer的建模本领,可以显著提升盘算效率和模子性能。
典型案例如台甫鼎鼎的Jamba:Jamba利用Transformer架构的元素增强Mamba 结构化状态空间模子技术,提供了 256K 上下文窗口,吞吐量直接超了Transformer三倍。
除Jamba外,近日又有不少最新提出的Transformer联合Mamba的研究,效果都很赞,比如Mamba-2-Hybrid,推理速率比Transformer快8倍。
我从这些最新研究中挑选了8个高质量结果供同学们参考学习,全部都是已开源可复现,资助各位探求灵感、打磨论文。
论文原文+开源代码必要的同学看文末

An Empirical Study of Mamba-based Language Models

方法:本文主要研究了基于Mamba的选择性状态空间模子与Transformer模子的联合,提出了一种肴杂SSM-Transformer模子,即Mamba-2-Hybrid,通过将Mamba、自注意力和MLP层组合起来,在所有常见基准测试中都优于Transformer模子。


创新点:



Dimba: Transformer-Mamba Diffusion Models

方法:Dimba 是一种全新的文本到图像扩散模子,它采用了一种联合了 Transformer 和 Mamba 元素的独特肴杂架构。具体来说,Dimba 在 Transformer 层和 Mamba 层之间交替顺序堆叠块,并通过交叉关注层整合条件信息,从而充实利用了两种架构范式的上风。


创新点:



Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting

方法:本文探索时间序列数据中Mamba和Transformer架构的融合潜力,提出了一种肴杂框架Mambaformer,通过内部整合Mamba和Transformer的上风实现长短范围的时间序列猜测,实验证明Mambaformer家族在长短范围时间序列猜测问题上优于Mamba和Transformer。


创新点:



PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis

方法:本文提出一种新的点云分析方法PoinTramba,通过将Transformer和Mamba的上风相联合,实现了盘算复杂度和分析性能之间的平衡,同时引入了双向告急性感知排序算法,进一步提高了性能,实验效果表明该方法在点云分析领域取得了最新的最优结果。


创新点:



关注下方《学姐带你玩AI》




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4