Transformer劲敌变队友?腾讯、英伟达都在用的Mamba-Transformer混淆架构要 ...

打印 上一主题 下一主题

主题 1759|帖子 1759|积分 5277

Transformer“单打独斗”的期间要结束了?Mamba-Transformer强势来袭!


在过去的一两年里,Transformer架构一直是AI大模型领域的“霸主”,但它也面临着来自新兴架构的不断挑衅。
在浩繁“挑衅者”中,Mamba无疑是最受瞩目的一个。
然而,近来的风向好像变了。Mamba和Transformer不再是“水火不容”的竞争对手,而是开始走向融合,携手打造更强盛的AI模型!
腾讯、英伟达纷纷押注Mamba-Transformer混淆架构


上周,腾讯推出了自研的深度思考模型“混元T1”,这款模型不但能“秒回”消息,还能快速处理超长文本,推理本领也相当强悍。
而“混元T1”之所以这么厉害,很大程度上要归功于它采用了Hybrid-Mamba-Transformer融合架构
这种架构有效降低了传统Transformer架构的计算复杂度,减少了内存占用,从而显著降低了训练和推理成本,让“混元T1”实现了“首字秒出”,吐字速度最快可达80 token/s!
无独有偶,英伟达也推出了一个采用Mamba-Transformer混淆架构的模型家族——Nemotron-H
Nemotron-H的速度是划一规模的纯Transformer模型的三倍!而且,47B版本的Nemotron-H,甚至可以在单张消费级的NVIDIA RTX 5090 GPU上,以FP4精度支持100万token长度的上下文推理!
腾讯、英伟达等科技巨头纷纷押注Mamba-Transformer混淆架构,这开释出一个猛烈的信号:这种架构大有可为!
Mamba-Transformer:强强联手,上风互补


Mamba-Transformer混淆架构,顾名思义,就是将Mamba和Transformer两种架构联合起来。


  • Transformer:各人都很熟悉了,它是以自注意力机制为焦点的深度学习模型,可以或许捕获输入序列中各个元素之间的复杂关系。
  • Mamba:一种状态空间模型(SSM),它在捕获序列数据中的复杂依赖关系方面体现出色,而且计算成本更低。
Mamba-Transformer混淆架构,可以将两者的上风联合起来:


  • Transformer的强盛建模本领:擅长处理各种复杂的NLP任务。
  • Mamba的高效性:擅长处理长序列数据,计算成本更低。
常见的Mamba-Transformer混淆方式有两种:

  • 层级混淆:在模型的差异层级分别利用Mamba和Transformer。
  • 序列级混淆:在处理序列的差异部门时,分别利用Mamba和Transformer。
Mamba-Transformer混淆架构模型盘点

除了腾讯的“混元T1”和英伟达的Nemotron-H,还有哪些Mamba-Transformer混淆架构模型呢?
滑铁卢大学计算机科学助理教授陈文虎(Wenhu Chen)近来盘点了几个,让我们一起来看看:
1. Nemotron-H(英伟达)



  • 特点:速度快(高达同类模型的3倍),支持超长上下文推理(47B版本可在单张RTX 5090 GPU上支持100万token)。
  • 应用:英伟达近期发布的用于物理AI的强盛VLM模型Cosmos-Reason 1的骨干网络。
2. Hunyuan-Turbo-S和Hunyuan-T1(腾讯)



  • 特点:推理本领强,擅长处理超长文本,吐字速度快(最快可达80 token/s)。
  • 应用:在MMLU-PRO等基准测试中体现出色,已在腾讯云上线。
3. STORM(英伟达)



  • 特点:基于视频的多模态大语言模型(Video-LLM),擅长处理长视频,时间推理本领强。
  • 应用:在长视频理解任务中体现出色,计算效率高。
4. Vamba(陈文虎团队)



  • 特点:专为长视频理解设计,可以高效处理长达1小时的视频。
  • 应用:在LVBench等小时级视频理解基准测试中体现出色,GPU内存利用量和运行时间减少50%以上。
Mamba-Transformer:AI大模型的未来?

从这些案例可以看出,Mamba-Transformer混淆架构已经在推理、多模态等任务中展现出了强盛的潜力。
通过合理的设计,Transformer的强盛性能可以与Mamba在长上下文和效率方面的上风相联合,为AI大模型带来新的可能性。
未来,Mamba-Transformer混淆架构能否成为AI大模型的主流?让我们拭目以待!
   AI绘画爱好者的福音!ChatTools 提供Midjourney免费无穷生图,更有GPT-4o、Claude 3等浩繁AI模型等你探索!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

耶耶耶耶耶

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表