ToB企服应用市场:ToB评测及商务社交产业平台

标题: DeepSeek-v3:开源大模型新高度,最强性能,最高性价比!(论文详解) [打印本页]

作者: 西河刘卡车医    时间: 2025-1-4 16:56
标题: DeepSeek-v3:开源大模型新高度,最强性能,最高性价比!(论文详解)
1.简介

近期,在人工智能领域,尤其是大型语言模型领域,可谓是热闹非凡。首先,OpenAI公司宣布开放了其最新的大型语言模型o1,紧接着,微软也不甘示弱,宣布开源了其先进的Phi-4模型,这一举措同样在技术社区中掀起了热烈讨论。两大科技巨头的相继动作,仿佛是一场接力赛,一个刚刚结束,另一个便紧随其后,登上了舞台,显现了大型语言模型发展的新趋势和竞争态势。
而国内厂商也不闲着,“深度求索”官方公众号12 月 26 日发布博文,宣布上线并同步开源 DeepSeek-V3 模型,用户可以登录官网 chat.deepseek.com,与最新版 V3 模型对话。
DeepSeek-V3在知识类使命(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平显著提升,接近当前表现最好的模型Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。在美国数学竞赛(AIME 2024, MATH)和天下高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅凌驾了其他所有开源闭源模型。别的,在生成速率上,DeepSeek-V3的生成吐字速率从20TPS(Transactions Per Second每秒完成的变乱数量)大幅进步至60TPS,相比V2.5模型实现了3倍的提升,能够带来更加流通的使用体验。据官方技术论文披露,DeepSeek-V3模型的总练习本钱为557.6万美元,而GPT-4o等模型的练习本钱约为1亿美元,仅为其本钱的1/20。

DeepSeek-V3模型API服务订价为每百万输入tokens为0.5元(缓存掷中)/2元(缓存未掷中),每百万输出tokens价格为8元,并享有45天的优惠价格体验期。

-
目录
1.简介
2.实测
3.论文解读

-
官方网站:DeepSeek
代码地点:GitHub - deepseek-ai/DeepSeek-V3
权重地点:https://huggingface.co/deepseek-ai
论文地点:DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHub
-
-
2.实测

测一下数草莓中的“r”以及“9.9和9.11哪个大”这种早期的行业难题。可以看到它都答对了

 对于图片也能做的清晰的明白,图中是论文图5

-
但是奇怪的是,偶然候它仍然会冒出英语,即便我的输入是中文。 

 
遗憾的是,对于超长文本的明白本领,不如Kimi

-
-
3.论文解读

3.1 简介

近年来,大型语言模型(LLM)一直在经历快速的迭代和演变,逐渐缩小了与人工通用智能(AGI)的差距。为了进一步推动开源模型功能的边界,我们扩展了我们的模型并引入了DeepSeek-V3,这是一个大型的专家混淆(MOE)模型,具有671 B参数,其中37 B为每个令牌激活。
本文的重要贡献如下:
架构

预练习:迈向终极练习效率

后练习:从R1举行知识蒸馏

   
     DeepSeek-V3的练习本钱    核心评价结果汇总

   
     DeepSeek-V3的性能    -
3.2 架构

DeepSeek-V3的根本架构仍然是Transformer框架。为了高效的推理和经济的练习,DeepSeek-V3还采用了MLA和DeepSeekMoE,这些都已经被DeepSeek-V2彻底验证过。与DeepSeek-V2相比,作者额外引入了一个无辅助丧失的负载均衡计谋(auxiliary-loss-free load balancing),以减轻由确保负载平衡的努力引起的性能降落。
   
     团体架构    Multi-Head Latent Attention(多头潜在注意力)

对于注意力,DeepSeek-V3采用了MLA架构。令d表示嵌入维数,
表示注意力头部的数量,
表示每个头部的维数,
表示给定注意力层处第t个令牌的注意力输入。MLA的核心是对注意键和值举行低秩联合压缩,以减少推理过程中的键值(KV)缓存:

其中,
是键和值压缩后的潜在向量;
表示KV压缩维度;
表示下采样矩阵;
分别是键和值的上采样矩阵;
是用于产生携带旋转位置嵌入(RoPE)的解耦键的矩阵; RoPE(·)表示应用RoPE矩阵的运算;[·; ·]表示concat。请注意,对于MLA,只有蓝框矢量(即上面粗体部分,
)须要在生成期间被缓存,这导致KV高速缓存显著减少,同时保持与标准多头注意(MHA)相称的性能。
对于注意query,作者还实验了低秩压缩,这可以减少练习期间的激活影象:

其中,
是query压缩后的潜在向量;
表示query压缩维度;
分别是query的下采样和上采样矩阵;
是产生携带旋转位置嵌入(RoPE)的解耦query的矩阵。
末了,注意力查询(
)、键(
)和值(
)被组合以产生最终的注意力输出u:


其中,
表示输出投影矩阵。
简朴来说:使用一个下采样矩阵生成较小尺寸的KV缓存,在生成的时候再使用一个上采样矩阵将保存的KV缓存上采样到原尺寸。如许做就可以大幅减少KV缓存,同时保持较好的性能。

-
DeepSeekMoE with Auxiliary-Loss-Free Load Balancing

根本架构:与传统的MOE架构如GShard,DeepSeekMoE使用更细粒度的专家,并将一些专家分离为共享专家。设
表示第t个令牌的FFN输入,我们计算FFN输出
如下:

其中,
分别表示共享专家和路由专家的数量;
分别表示第i个共享专家和第i个路由专家;
表示激活的路由专家的数量;
是第i个专家的门控值;
是令牌到专家的亲和度(token-to-expert affinity);
是第i个路由专家的核心向量;以及Topk(·,k)表示包括第t个令牌和所有路由专家计算的亲和度分数中的第k个最高分数的聚集。与DeepSeek-V2略有不同,DeepSeek-V3使用sigmoid函数来计算亲和度分数,并在所有选定的亲和度分数中应用归一化以产生门控值。
辅助无丧失负载平衡(Auxiliary-Loss-Free Load Balancing):对于MOE模型,不平衡的专家负载将导致路由崩溃(routing collapse),而且在具有专家并行性的场景中降低了计算效率。传统的办理方案通常依靠于辅助丧失以避免不平衡负载。然而,过大的辅助丧失将损害模型性能。为了在负载平衡和模型性能之间实现更好的平衡,我们开创了一种无辅助丧失的负载平衡计谋以确保负载平衡。具体来说,作者为每个专家引入一个毛病项
,并将其添加到相应的亲和力分数
中,以确定前K个路由:

请注意,偏置项仅用于路由。将与FFN输出相乘的门控值仍然是从原始亲和性分数
导出的。在练习过程中,我们不断地监控每一个练习步骤的整个批次上的专家负载。在每一步结束时,假如其对应的专家过载,则通过




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4