ToB企服应用市场:ToB评测及商务社交产业平台
标题:
Transformer和Mamba强强联合!最新肴杂架构全面开源,推理速率狂飙8倍
[打印本页]
作者:
十念
时间:
2024-8-10 22:38
标题:
Transformer和Mamba强强联合!最新肴杂架构全面开源,推理速率狂飙8倍
近来发现,
将Mamba和Transformer模块肴杂利用
,效果会比单独利用好许多,这是因为该方法联合了Mamba的长序列处置惩罚本领和Transformer的建模本领,可以显著提升盘算效率和模子性能。
典型案例如台甫鼎鼎的Jamba:Jamba利用Transformer架构的元素增强Mamba 结构化状态空间模子技术,提供了 256K 上下文窗口,吞吐量直接超了Transformer三倍。
除Jamba外,近日又有不少最新提出的Transformer联合Mamba的研究,效果都很赞,比如Mamba-2-Hybrid,推理速率比Transformer快8倍。
我从这些最新研究中挑选了
8个高质量结果
供同学们参考学习,全部都是
已开源可复现
,资助各位探求灵感、打磨论文。
论文原文+开源代码必要的同学看文末
An Empirical Study of Mamba-based Language Models
方法:
本文主要研究了基于Mamba的选择性状态空间模子与Transformer模子的联合,提出了一种肴杂SSM-Transformer模子,即Mamba-2-Hybrid,通过将Mamba、自注意力和MLP层组合起来,在所有常见基准测试中都优于Transformer模子。
创新点:
提出了肴杂SSM-Transformer模子的概念,这种模子由Mamba-2、自注意力和MLP层构成。
提出了Mamba-2-Hybrid模子扩展到支持16K、32K和128K上下文长度的方法。在推理时,Mamba-2-Hybrid模子猜测生成一个token的速率可能比Transformer快达8倍;在23个长上下文评估中,16K和32K模子与Transformer基准模子相称甚至超过其性能。
证明了Mamba-2-Hybrid模子在长上下文任务中的泛化本领。通过在Phonebook查找任务中的体现,发现将Mamba-2-Hybrid扩展到支持128K上下文可以完美执行任务,即使电话簿中包含超过150K个标记。
Dimba: Transformer-Mamba Diffusion Models
方法:
Dimba 是一种全新的文本到图像扩散模子,它采用了一种联合了 Transformer 和 Mamba 元素的独特肴杂架构。具体来说,Dimba 在 Transformer 层和 Mamba 层之间交替顺序堆叠块,并通过交叉关注层整合条件信息,从而充实利用了两种架构范式的上风。
创新点:
引入了一个新的文本到图像扩散模子,采用了Transformer和Mamba元素的肴杂架构。Dimba模子通过在Transformer和Mamba层之间交替堆叠块,并通过交叉注意力层整合条件信息,充实发挥了两种架构范式的上风。
先容了一种新的状态空间模子,即Mamba,它在处置惩罚序列数据方面具有高效性和模子灵活性的上风。Mamba在SSM中引入了时变参数,并提出了一种硬件感知的算法,实现了高效的练习和推理。
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting
方法:
本文探索时间序列数据中Mamba和Transformer架构的融合潜力,提出了一种肴杂框架Mambaformer,通过内部整合Mamba和Transformer的上风实现长短范围的时间序列猜测,实验证明Mambaformer家族在长短范围时间序列猜测问题上优于Mamba和Transformer。
创新点:
作者提出了一种肴杂架构,该架构联合了Mamba和Transformer模子以举行时间序列猜测。
核心的Mambaformer层将Mamba层和自注意力层交替分列,以联合Mamba和Transformer的长处。注意力层捕捉时间序列数据中的短期依赖性,而Mamba层则增强了捕捉恒久依赖性的本领。这一层显著提高了Mambaformer系列在长短时范围时间序列猜测中的性能。
PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis
方法:
本文提出一种新的点云分析方法PoinTramba,通过将Transformer和Mamba的上风相联合,实现了盘算复杂度和分析性能之间的平衡,同时引入了双向告急性感知排序算法,进一步提高了性能,实验效果表明该方法在点云分析领域取得了最新的最优结果。
创新点:
PoinTramba:这是一个联合了Transformer和Mamba的肴杂框架,用于点云分析。通过联合这两种架构,PoinTramba在盘算复杂性和分析性能之间取得了杰出的平衡。
为了解决点云随机排序对Mamba性能的负面影响,作者引入了一种新的双向告急性感知排序策略。
关注下方《学姐带你玩AI》
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4