论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
软件与程序人生
›
云原生
›
Transformer劲敌变队友?腾讯、英伟达都在用的Mamba-Tra ...
Transformer劲敌变队友?腾讯、英伟达都在用的Mamba-Transformer混淆架构要 ...
耶耶耶耶耶
论坛元老
|
2025-5-6 02:46:42
|
显示全部楼层
|
阅读模式
楼主
主题
1759
|
帖子
1759
|
积分
5277
Transformer“单打独斗”的期间要结束了?Mamba-Transformer强势来袭!
在过去的一两年里,Transformer架构一直是AI大模型领域的“霸主”,但它也面临着来自新兴架构的不断挑衅。
在浩繁“挑衅者”中,Mamba无疑是最受瞩目的一个。
然而,近来的风向好像变了。Mamba和Transformer不再是“水火不容”的竞争对手,而是开始走向融合,携手打造更强盛的AI模型!
腾讯、英伟达纷纷押注Mamba-Transformer混淆架构
上周,腾讯推出了自研的深度思考模型“混元T1”,这款模型不但能“秒回”消息,还能快速处理超长文本,推理本领也相当强悍。
而“混元T1”之所以这么厉害,很大程度上要归功于它采用了
Hybrid-Mamba-Transformer融合架构
。
这种架构有效降低了传统Transformer架构的计算复杂度,减少了内存占用,从而显著降低了训练和推理成本,让“混元T1”实现了“首字秒出”,吐字速度最快可达80 token/s!
无独有偶,英伟达也推出了一个采用Mamba-Transformer混淆架构的模型家族——
Nemotron-H
。
Nemotron-H的速度是划一规模的纯Transformer模型的三倍!而且,47B版本的Nemotron-H,甚至可以在单张消费级的NVIDIA RTX 5090 GPU上,以FP4精度支持100万token长度的上下文推理!
腾讯、英伟达等科技巨头纷纷押注Mamba-Transformer混淆架构,这开释出一个猛烈的信号:这种架构大有可为!
Mamba-Transformer:强强联手,上风互补
Mamba-Transformer混淆架构,顾名思义,就是将Mamba和Transformer两种架构联合起来。
Transformer
:各人都很熟悉了,它是以自注意力机制为焦点的深度学习模型,可以或许捕获输入序列中各个元素之间的复杂关系。
Mamba
:一种状态空间模型(SSM),它在捕获序列数据中的复杂依赖关系方面体现出色,而且计算成本更低。
Mamba-Transformer混淆架构,可以将两者的上风联合起来:
Transformer的强盛建模本领
:擅长处理各种复杂的NLP任务。
Mamba的高效性
:擅长处理长序列数据,计算成本更低。
常见的Mamba-Transformer混淆方式有两种:
层级混淆
:在模型的差异层级分别利用Mamba和Transformer。
序列级混淆
:在处理序列的差异部门时,分别利用Mamba和Transformer。
Mamba-Transformer混淆架构模型盘点
除了腾讯的“混元T1”和英伟达的Nemotron-H,还有哪些Mamba-Transformer混淆架构模型呢?
滑铁卢大学计算机科学助理教授陈文虎(Wenhu Chen)近来盘点了几个,让我们一起来看看:
1. Nemotron-H(英伟达)
特点
:速度快(高达同类模型的3倍),支持超长上下文推理(47B版本可在单张RTX 5090 GPU上支持100万token)。
应用
:英伟达近期发布的用于物理AI的强盛VLM模型Cosmos-Reason 1的骨干网络。
2. Hunyuan-Turbo-S和Hunyuan-T1(腾讯)
特点
:推理本领强,擅长处理超长文本,吐字速度快(最快可达80 token/s)。
应用
:在MMLU-PRO等基准测试中体现出色,已在腾讯云上线。
3. STORM(英伟达)
特点
:基于视频的多模态大语言模型(Video-LLM),擅长处理长视频,时间推理本领强。
应用
:在长视频理解任务中体现出色,计算效率高。
4. Vamba(陈文虎团队)
特点
:专为长视频理解设计,可以高效处理长达1小时的视频。
应用
:在LVBench等小时级视频理解基准测试中体现出色,GPU内存利用量和运行时间减少50%以上。
Mamba-Transformer:AI大模型的未来?
从这些案例可以看出,Mamba-Transformer混淆架构已经在推理、多模态等任务中展现出了强盛的潜力。
通过合理的设计,Transformer的强盛性能可以与Mamba在长上下文和效率方面的上风相联合,为AI大模型带来新的可能性。
未来,Mamba-Transformer混淆架构能否成为AI大模型的主流?让我们拭目以待!
AI绘画爱好者的福音!ChatTools 提供Midjourney免费无穷生图,更有GPT-4o、Claude 3等浩繁AI模型等你探索!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
耶耶耶耶耶
论坛元老
这个人很懒什么都没写!
楼主热帖
为什么你应该停止依赖Jenkins的插件? ...
蜻蜓优化算法(Matlab完整代码实现) ...
集合论第6-8章
axios&spring前后端分离传参规范总结 ...
SQL 教程之 10 个 SQL 操作用于 80% 的 ...
关于Maven的使用
Python知识点(史上最全)
腾讯云多媒体文件处理总结
JVM常用调优配置参数
20220319编译OpenHarmony-v3.1-beta出 ...
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表