DeepSeek-v3:开源大模型新高度,最强性能,最高性价比!(论文详解) ...

打印 上一主题 下一主题

主题 912|帖子 912|积分 2736

1.简介

近期,在人工智能领域,尤其是大型语言模型领域,可谓是热闹非凡。首先,OpenAI公司宣布开放了其最新的大型语言模型o1,紧接着,微软也不甘示弱,宣布开源了其先进的Phi-4模型,这一举措同样在技术社区中掀起了热烈讨论。两大科技巨头的相继动作,仿佛是一场接力赛,一个刚刚结束,另一个便紧随其后,登上了舞台,显现了大型语言模型发展的新趋势和竞争态势。
而国内厂商也不闲着,“深度求索”官方公众号12 月 26 日发布博文,宣布上线并同步开源 DeepSeek-V3 模型,用户可以登录官网 chat.deepseek.com,与最新版 V3 模型对话。
DeepSeek-V3在知识类使命(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平显著提升,接近当前表现最好的模型Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。在美国数学竞赛(AIME 2024, MATH)和天下高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅凌驾了其他所有开源闭源模型。别的,在生成速率上,DeepSeek-V3的生成吐字速率从20TPS(Transactions Per Second每秒完成的变乱数量)大幅进步至60TPS,相比V2.5模型实现了3倍的提升,能够带来更加流通的使用体验。据官方技术论文披露,DeepSeek-V3模型的总练习本钱为557.6万美元,而GPT-4o等模型的练习本钱约为1亿美元,仅为其本钱的1/20。

DeepSeek-V3模型API服务订价为每百万输入tokens为0.5元(缓存掷中)/2元(缓存未掷中),每百万输出tokens价格为8元,并享有45天的优惠价格体验期。

-
目录
1.简介
2.实测
3.论文解读

-
官方网站:DeepSeek
代码地点:GitHub - deepseek-ai/DeepSeek-V3
权重地点:https://huggingface.co/deepseek-ai
论文地点:DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHub
-
-
2.实测

测一下数草莓中的“r”以及“9.9和9.11哪个大”这种早期的行业难题。可以看到它都答对了

 对于图片也能做的清晰的明白,图中是论文图5

-
但是奇怪的是,偶然候它仍然会冒出英语,即便我的输入是中文。 

 
遗憾的是,对于超长文本的明白本领,不如Kimi

-
-
3.论文解读

3.1 简介

近年来,大型语言模型(LLM)一直在经历快速的迭代和演变,逐渐缩小了与人工通用智能(AGI)的差距。为了进一步推动开源模型功能的边界,我们扩展了我们的模型并引入了DeepSeek-V3,这是一个大型的专家混淆(MOE)模型,具有671 B参数,其中37 B为每个令牌激活。
本文的重要贡献如下:
架构


  • 在DeepSeek-V2的高效架构基础上,首创了无辅助丧失(auxiliary-loss-free strategy)的负载均衡计谋(load balancing),最大限度地降低了由于寻求负载均衡而导致的性能降落。
  • 作者研究了一个多标志猜测(Multi-Token Prediction,MTP)目的,并证明白它对模型性能的好处。它也可以用于推理加快。
预练习:迈向终极练习效率


  • 作者设计了FP 8混淆精度练习框架,并初次在超大规模模型上验证了FP 8练习的可行性和有效性。
  • 通过算法、框架和硬件的协同设计,克服了跨节点MOE练习(cross-node MoE training)中的通讯瓶颈,实现了近乎完全的计算-通讯重叠(near-full computation-
    communication overlap)。这大大进步了我们的练习效率并降低了练习本钱,使我们能够在不增长额外开销的情况下进一步扩大模型规模。

    • 注:Computation-communication overlap(计算-通讯重叠)是指在并行计算或分布式系统中,计算使命和通讯使命在同一时间内同时举行,以进步资源使用率和团体性能的一种技术。在深度学习模型练习中,不同的计算节点(如GPU)须要交换信息,这通常涉及到通讯操作。假如通讯操作和计算操作能够重叠举行,即在一个节点举行计算的同时,另一个节点可以举行数据传输,那么就可以更有效地使用硬件资源,减少等待时间,从而加快练习过程。
       
  • 作者以仅266.4万H800 GPU小时的经济本钱,在14.8T tokens上完成了DeepSeek-V3的预练习,产生了现在最强的开源基础模型。预练习后的后续练习阶段仅须要0.1M GPU小时。
后练习:从R1举行知识蒸馏


  • 作者引入了一种创新的方法,从长头脑链(CoT)模型中提取推理本领,特殊是从DeepSeek R1系列模型中提取推理本领,并将其转化为标准的LLM,特殊是DeepSeek-V3。作者将R1的验证和反射模式优雅地整合到DeepSeek-V3中,并显著进步了其推理性能。同时,作者还可以控制DeepSeek-V3的输出样式和长度。
   
     DeepSeek-V3的练习本钱    核心评价结果汇总


  • 知识:

    • (1)在MMLU、MMLU-Pro和GPQA等教育基准测试中,DeepSeek-V3的表现优于所有其他开源模型,在MMLU上达到88.5,在MMLU-Pro上达到75.9,在GPQA上达到59.1。它的性能与GPT-4 o和Claude-Sonnet-3.5等领先的闭源模型相称,缩小了该领域开源和闭源模型之间的差距。
    • (2)对于真实性基准测试,DeepSeek-V3在SimpleQA和中文SimpleQA的开源模型中表现出上级性能。固然它在英语究竟知识(SimpleQA)方面落后于GPT-4 o和Claude-Sonnet-3.5,但它在汉语究竟知识(Chinese SimpleQA)方面凌驾了这些模型,突出了它在汉语究竟知识方面的上风。

  • 代码、数学和推理:

    • (1)DeepSeek-V3在所有非长CoT开源和闭源模型中的数学相干基准测试中达到了最先进的性能。值得注意的是,它乃至在特定的基准测试(如MATH-500)上优于o1-preview,证明白其强盛的数学推理本领。
    • (2)在编码相干使命方面,DeepSeek-V3成为LiveCodeBench等编码竞赛基准测试的最佳模型,巩固了其在该领域的领先地位。对于工程相干的使命,固然DeepSeek-V3的性能略低于Claude-Sonnet-3.5,但它仍然远远凌驾所有其他型号,在各种技术基准中表现出竞争力。

   
     DeepSeek-V3的性能    -
3.2 架构

DeepSeek-V3的根本架构仍然是Transformer框架。为了高效的推理和经济的练习,DeepSeek-V3还采用了MLA和DeepSeekMoE,这些都已经被DeepSeek-V2彻底验证过。与DeepSeek-V2相比,作者额外引入了一个无辅助丧失的负载均衡计谋(auxiliary-loss-free load balancing),以减轻由确保负载平衡的努力引起的性能降落。
   
     团体架构    Multi-Head Latent Attention(多头潜在注意力)

对于注意力,DeepSeek-V3采用了MLA架构。令d表示嵌入维数,
表示注意力头部的数量,
表示每个头部的维数,
表示给定注意力层处第t个令牌的注意力输入。MLA的核心是对注意键和值举行低秩联合压缩,以减少推理过程中的键值(KV)缓存:

其中,
是键和值压缩后的潜在向量;
表示KV压缩维度;
表示下采样矩阵;
分别是键和值的上采样矩阵;
是用于产生携带旋转位置嵌入(RoPE)的解耦键的矩阵; RoPE(·)表示应用RoPE矩阵的运算;[·; ·]表示concat。请注意,对于MLA,只有蓝框矢量(即上面粗体部分,
)须要在生成期间被缓存,这导致KV高速缓存显著减少,同时保持与标准多头注意(MHA)相称的性能。
对于注意query,作者还实验了低秩压缩,这可以减少练习期间的激活影象:

其中,
是query压缩后的潜在向量;
表示query压缩维度;
分别是query的下采样和上采样矩阵;
是产生携带旋转位置嵌入(RoPE)的解耦query的矩阵。
末了,注意力查询(
)、键(
)和值(
)被组合以产生最终的注意力输出u:


其中,
表示输出投影矩阵。
简朴来说:使用一个下采样矩阵生成较小尺寸的KV缓存,在生成的时候再使用一个上采样矩阵将保存的KV缓存上采样到原尺寸。如许做就可以大幅减少KV缓存,同时保持较好的性能。

-
DeepSeekMoE with Auxiliary-Loss-Free Load Balancing

根本架构:与传统的MOE架构如GShard,DeepSeekMoE使用更细粒度的专家,并将一些专家分离为共享专家。设
表示第t个令牌的FFN输入,我们计算FFN输出
如下:

其中,
分别表示共享专家和路由专家的数量;
分别表示第i个共享专家和第i个路由专家;
表示激活的路由专家的数量;
是第i个专家的门控值;
是令牌到专家的亲和度(token-to-expert affinity);
是第i个路由专家的核心向量;以及Topk(·,k)表示包括第t个令牌和所有路由专家计算的亲和度分数中的第k个最高分数的聚集。与DeepSeek-V2略有不同,DeepSeek-V3使用sigmoid函数来计算亲和度分数,并在所有选定的亲和度分数中应用归一化以产生门控值。
辅助无丧失负载平衡(Auxiliary-Loss-Free Load Balancing):对于MOE模型,不平衡的专家负载将导致路由崩溃(routing collapse),而且在具有专家并行性的场景中降低了计算效率。传统的办理方案通常依靠于辅助丧失以避免不平衡负载。然而,过大的辅助丧失将损害模型性能。为了在负载平衡和模型性能之间实现更好的平衡,我们开创了一种无辅助丧失的负载平衡计谋以确保负载平衡。具体来说,作者为每个专家引入一个毛病项
,并将其添加到相应的亲和力分数
中,以确定前K个路由:

请注意,偏置项仅用于路由。将与FFN输出相乘的门控值仍然是从原始亲和性分数
导出的。在练习过程中,我们不断地监控每一个练习步骤的整个批次上的专家负载。在每一步结束时,假如其对应的专家过载,则通过

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

西河刘卡车医

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表