论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
Llama 4 开源空降!1000 万超长上下文、单 GPU 可跑,尚 ...
Llama 4 开源空降!1000 万超长上下文、单 GPU 可跑,尚有近 2 万亿参数巨 ...
美丽的神话
论坛元老
|
2025-4-16 18:33:28
|
显示全部楼层
|
阅读模式
楼主
主题
1787
|
帖子
1787
|
积分
5361
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
在人工智能领域的激烈竞争中,Meta 于本地时间 4 月 5 日投下重磅炸弹,推出了其最新且最强大的开源人工智能模型 ——Llama 4。此次发布不仅标志着 Meta 在 AI 技能上的重大飞跃,也为整个开源 AI 社区注入了强大动力,有望重塑多模态模型的格局。
Llama 4 的架构创新:混淆专家(MoE)的首次应用
Llama 4 系列的最大亮点之一,是首次采用了混淆专家(MoE)架构。这种架构冲破了传统模型的单一结构模式,将模型划分为多个专注于特定使命的 “专家” 子模型。在训练和回答用户查询时,MoE 架构展现出了更高的服从。以 Llama 4 Maverick 模型为例,在其运行过程中,单个 token 仅激活总参数的一部门,通过瓜代利用密集层和混淆专家(MoE)层,大大提高了推理服从。只管所有参数都存储在内存中,但服务模型时,仅需激活部门总参数,这使得模型在固定训练 FLOPs 预算下,能够提供比传统密集模型更高的质量。这种创新架构不仅提升了模型性能,还为资源有限的开发者和研究人员带来了福音,让他们能够在较低设置下实现高效的模型应用。
Llama 4 首批模型的杰出性能
Llama 4 Scout:高效多模态与超长上下文的完美联合
Llama 4 Scout 被称作 “同类产品中全球最好的多模态模型”,其性能表现令人惊叹。它拥有 16 位专家、170 亿个活跃参数、1090 亿个总参数,却能在单张 NVIDIA H100 GPU(具有 Int4 量化)上运行。最为引人注目标是,它支持超长的 1000 万 tokens 上下文窗口,这意味着它能够处理多达 500 万个单词的文本,相当于可以处理 20 多个小时的视频内容。在广泛的基准测试中,Llama 4 Scout 的分数逾越了 Gemma 3、Gemini 2.0 Flash - Lite、Mistral 3.1 等着名模型,在图像定位方面更是同类最佳,能够精准地将用户提示与相干视觉概念对齐,并将模型响应锚定到图像中的特定地区,为多模态使命中的信息提取和复杂逻辑推理提供了强大支持,尤其适用于文档摘要与大型代码库推理等场景。
Llama 4 Maverick:高性价比的多模态强者
Llama 4 Maverick 同样力气非凡,拥有 128 位专家、170 亿个活跃参数、4000 亿个总参数,适用于单台 H100 主机。在各类基准测试中,它成功击败了 GPT - 4o 和 Gemini 2.0 Flash,并且在推理和编程方面取得了与新 DeepSeek - v3 相当的效果,而其活跃参数还不到 DeepSeek - v3 的一半。从性价比角度来看,Llama 4 Maverick 的实验性谈天版本在 LMArena 上的 ELO 得分为 1417,每 1M tokens 输入和输出推理本钱区间(0.19 - 0.49 美元)靠近乃至低于 DeepSeek v3.1(0.48 美元)。作为一款通用大语言模型,它在图像精准理解和创意写作方面表现突出,特别得当通用助手、谈天类应用场景,以相对较低的本钱提供了高质量的多模态服务。
Llama 4 Behemoth:将来的 AI 巨擘
Meta 还预览了其迄今最强大的新教师模型 ——Llama 4 Behemoth。只管该模型仍在训练中,尚未正式发布,但已透露的信息足以令人期待。Llama 4 Behemoth 拥有 16 位专家、2880 亿个活跃参数、近 2 万亿个总参数,在多个 STEM 基准测试中的表现优于 GPT - 4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。它将作为 Maverick 等模型协同蒸馏的教师模型,利用 30T 多模态 token 在 32K 个 GPU 上进行预训练(FP8)。可以预见,一旦 Llama 4 Behemoth 正式发布,必将在 AI 领域掀起新的波涛,为更多复杂使命和前沿研究提供强大支持。
Llama 4 的多模态能力升级
Llama 4 作为一个原生多模态模型,采用了早期融合技能,能够将文本和视觉 token 无缝整合到一个同一的模型框架里。Meta 对其视觉编码器进行了升级,该编码器基于 MetaCLIP,在训练时与冻结的 Llama 模型分开进行,从而能更好地调解编码器,使其与大语言模型(LLM)适配。别的,Llama 4 通过在 200 种语言上预训练实现了对开源微调的支持,此中凌驾 10 亿个 token 的语言有 100 多种,整体多语言 token 量比 Llama 3 多出 10 倍。这不仅提升了模型质量,还为 Llama 4 Scout 解锁了领先的 1000 万输入上下文长度,使其在多模态使命处理上达到了新的高度,能够更自然地理解和处理多种范例的数据,实现不同格式内容之间的转换。
Llama 4 的开源影响与将来预测
目前,从llama.com和 Hugging Face 可下载 Llama 4 Scout 和 Llama 4 Maverick 模型,并且这些模型很快将在主流云和数据平台、边沿芯片和全球服务集成商上提供。即日起,用户在 WhatsApp、Messenger、Instagram Direct 和 Meta.AI 网站上可试用利用 Llama 4 构建的 Meta AI。Llama 4 模型的开源发布,为全球开发者和研究人员提供了强大的工具,将进一步推动 AI 技能在各个领域的创新应用。同时,Meta 预告将在 4 月 29 日的 LlamaCon 上分享更多关于其愿景的内容,这也让人们对 Llama 4 的将来发展布满期待。随着 Llama 4 生态系统的不绝完善,我们有来由相信,它将在人工智能的发展历程中留下浓墨重彩的一笔,引领开源 AI 迈向新的发展阶段。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
美丽的神话
论坛元老
这个人很懒什么都没写!
楼主热帖
Python 实现贪心算法
Kubernetes——Pod对象的声明周期(Pod ...
Spark快速上手(3)Spark核心编程-RDD转 ...
Python自动操作 GUI 神器——PyAutoGUI ...
java中Files.mismatch方法具有什么功能 ...
什么是超融合数据中心网络? ...
哈工大软件构造Lab3(2022)
彻底理解 volatile 关键字及应用场景, ...
GIS前沿技术
C# net core 微信公众号导出历史文章 ...
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表