论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
软件与程序人生
›
云原生
›
Transformer和Mamba强强联合!最新肴杂架构全面开源,推 ...
Transformer和Mamba强强联合!最新肴杂架构全面开源,推理速率狂飙8倍 ...
十念
论坛元老
|
2024-8-10 22:38:14
|
显示全部楼层
|
阅读模式
楼主
主题
1036
|
帖子
1036
|
积分
3108
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
近来发现,
将Mamba和Transformer模块肴杂利用
,效果会比单独利用好许多,这是因为该方法联合了Mamba的长序列处置惩罚本领和Transformer的建模本领,可以显著提升盘算效率和模子性能。
典型案例如台甫鼎鼎的Jamba:Jamba利用Transformer架构的元素增强Mamba 结构化状态空间模子技术,提供了 256K 上下文窗口,吞吐量直接超了Transformer三倍。
除Jamba外,近日又有不少最新提出的Transformer联合Mamba的研究,效果都很赞,比如Mamba-2-Hybrid,推理速率比Transformer快8倍。
我从这些最新研究中挑选了
8个高质量结果
供同学们参考学习,全部都是
已开源可复现
,资助各位探求灵感、打磨论文。
论文原文+开源代码必要的同学看文末
An Empirical Study of Mamba-based Language Models
方法:
本文主要研究了基于Mamba的选择性状态空间模子与Transformer模子的联合,提出了一种肴杂SSM-Transformer模子,即Mamba-2-Hybrid,通过将Mamba、自注意力和MLP层组合起来,在所有常见基准测试中都优于Transformer模子。
创新点:
提出了肴杂SSM-Transformer模子的概念,这种模子由Mamba-2、自注意力和MLP层构成。
提出了Mamba-2-Hybrid模子扩展到支持16K、32K和128K上下文长度的方法。在推理时,Mamba-2-Hybrid模子猜测生成一个token的速率可能比Transformer快达8倍;在23个长上下文评估中,16K和32K模子与Transformer基准模子相称甚至超过其性能。
证明了Mamba-2-Hybrid模子在长上下文任务中的泛化本领。通过在Phonebook查找任务中的体现,发现将Mamba-2-Hybrid扩展到支持128K上下文可以完美执行任务,即使电话簿中包含超过150K个标记。
Dimba: Transformer-Mamba Diffusion Models
方法:
Dimba 是一种全新的文本到图像扩散模子,它采用了一种联合了 Transformer 和 Mamba 元素的独特肴杂架构。具体来说,Dimba 在 Transformer 层和 Mamba 层之间交替顺序堆叠块,并通过交叉关注层整合条件信息,从而充实利用了两种架构范式的上风。
创新点:
引入了一个新的文本到图像扩散模子,采用了Transformer和Mamba元素的肴杂架构。Dimba模子通过在Transformer和Mamba层之间交替堆叠块,并通过交叉注意力层整合条件信息,充实发挥了两种架构范式的上风。
先容了一种新的状态空间模子,即Mamba,它在处置惩罚序列数据方面具有高效性和模子灵活性的上风。Mamba在SSM中引入了时变参数,并提出了一种硬件感知的算法,实现了高效的练习和推理。
Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting
方法:
本文探索时间序列数据中Mamba和Transformer架构的融合潜力,提出了一种肴杂框架Mambaformer,通过内部整合Mamba和Transformer的上风实现长短范围的时间序列猜测,实验证明Mambaformer家族在长短范围时间序列猜测问题上优于Mamba和Transformer。
创新点:
作者提出了一种肴杂架构,该架构联合了Mamba和Transformer模子以举行时间序列猜测。
核心的Mambaformer层将Mamba层和自注意力层交替分列,以联合Mamba和Transformer的长处。注意力层捕捉时间序列数据中的短期依赖性,而Mamba层则增强了捕捉恒久依赖性的本领。这一层显著提高了Mambaformer系列在长短时范围时间序列猜测中的性能。
PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis
方法:
本文提出一种新的点云分析方法PoinTramba,通过将Transformer和Mamba的上风相联合,实现了盘算复杂度和分析性能之间的平衡,同时引入了双向告急性感知排序算法,进一步提高了性能,实验效果表明该方法在点云分析领域取得了最新的最优结果。
创新点:
PoinTramba:这是一个联合了Transformer和Mamba的肴杂框架,用于点云分析。通过联合这两种架构,PoinTramba在盘算复杂性和分析性能之间取得了杰出的平衡。
为了解决点云随机排序对Mamba性能的负面影响,作者引入了一种新的双向告急性感知排序策略。
关注下方《学姐带你玩AI》
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
十念
论坛元老
这个人很懒什么都没写!
楼主热帖
Velero系列文章(四):使用Velero进行 ...
Kali Linux利用MSF入侵安卓手机(小白版 ...
SonarQube安全扫描
C/C++函数的调用约定详解
三天吃透Kafka面试八股文
Android Studio 实现登录注册-源代码 ...
微光互联 TX800-U 扫码器无法输出中文 ...
xmrig挖矿样本分析 miner
ENVI无缝镶嵌、拼接栅格数据的方法 ...
【图书管理系统】Servlet+JSP+MySql 实 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
Mysql
DevOps与敏捷开发
物联网
虚拟化与私有云
.Net
前端开发
分布式数据库
Oracle
网络安全
快速回复
返回顶部
返回列表