IT评测·应用市场-qidao123.com
标题:
Deepseek v3 的笔记
[打印本页]
作者:
诗林
时间:
2025-1-5 07:40
标题:
Deepseek v3 的笔记
基本概述
Deepseek v3是Deepseek发布的旗舰模型,属于607B的混淆专家(MoE)模型,其中活泼参数为37B。在当前的模型领域,它堪称最佳的开源模型,性能超越了Llama 3.1 405b、Qwen和Mistral等知名模型。根据基准测试效果,它与OpenAI的GPT - 4o以及Claude 3.5 Sonnet处于同一水平,并且在某些任务上的表现还要更胜一筹。
训练上风及突破
成本与效率
:在训练方面取得了令人瞩目的结果,仅花费约600万美元,在英伟达h800s集群上利用278.8万个GPU小时,基于14.8万亿高质量数据完成了预训练。与之形成鲜明对比的是,Llama 403b的训练数据量是其11倍,消耗了3084万个GPU小时,并且同样基于约15万亿的token举行训练。
技术创新
模型架构
:
MoE架构
:采用混淆专家(MoE)架构,在处置惩罚每个token时,仅激活37B的参数,相较于传统的密集模型,这种稀疏激活方式极大地低落了盘算需求。
多头潜在注意力(MLA)
:运用此技术压缩了键值(Key - Value)缓存,不但减少了内存利用量,还使得训练过程更加高效。
FP8混淆精度训练
:实现了FP8混淆精度训练框架,与传统的FP16/FP32格式相比,内存占用最多可低落50%。同时,通过采用细粒度量化策略以及提高累加精度,在提升训练速率的同时有用包管了模型的精确性。
负载均衡策略
:针对MoE架构,首创了无辅助损失的负载均衡策略,这种策略在不引入传统辅助损失方法弊端的条件下,有用提升了模型的性能。
训练框架
:开发了自界说的HAI - LLM训练框架,该框架具备多项优化:
双管道算法
:通过双管道算法实现了高效的流水线并行,减少了流水线中的气泡,实现了盘算和通信的重叠,从而提高了训练效率。
高效通信内核
:具备高效的跨节点全对全通信内核,可以或许充实利用网络带宽,加速数据传输。
内存优化
:通过经心的内存优化步伐,避免了利用成本高昂的张量并行,进一步低落了训练成本。
新增特性
Deepseek v3新增了深度思考(Deepthink)功能,融入了Deepseek R1系列模型的思维链(CoT)本事。具体做法是通过创新的知识蒸馏方法,将R1系列模型的推理本事迁徙到Deepseek v3中,在这个过程中,奇妙地将R1的验证和反思模式融入其中,不但显著提升了v3的推理性能,还可以或许对v3的输出风格和长度举行有用控制。用户可以在Deepseek谈天界面中启用该特性,只管其效果不如o1,但对模型推理本事有一定程度的加强。
与其他模型的性能对比
作者围绕推理、数学、编码、创意写作四个关键领域,利用一系列基准问题对Deepseek v3、GPT - 4o和Claude 3.5 Sonnet举行了测试:
推理本事
:
“找第四个单词”问题
:未启用Deepthink CoT时答复错误,启用后经太过析思考,精确找出了句子中的第四个单词,证明该特性有助于提升推理精确性。
“数单词数量”问题
:Deepseek v3答复错误,但GPT - 4o和Claude 3.5 Sonnet同样未能答对。
“草莓单词中r的数量”问题
:Deepseek v3精确答复,而GPT - 4o从未答对过该问题。
“农夫与羊过河”问题
:无论是否启用Deepthink CoT,Deepseek v3都未能得出精确答案,但整体来看,它在推理本事上仍优于GPT - 4o和Claude 3.5 Sonnet,虽不及o1,但表现也较为出色。
数学本事
:
简单减法运算
:对于“5.11 - 5.90”这类简单数学问题可以或许精确盘算。
平行四边形极点问题
:在求平行四边形可能的第四个极点问题上,Deepseek v3可以或许精确找出全部可能的极点,而GPT - 4o和3.5 Sonnet只能找出一个。
整数求和问题
:面对较复杂的整数相关数学问题,启用Deepthink特性后,Deepseek v3给出了精确答案,表明其数学本事强于GPT - 4o和Claude 3.5 Sonnet。
编码本事
:利用LeetCode上较新的“Super Heroes”这一“Hard”难度的动态规划问题举行测试。Deepseek v3首次答复时完全失败,一个测试用例都未通过,但再次尝试时给出了完美办理方案,且性能表现优秀。综合来看,其编码本事接近GPT - 4,但Claude 3.5 Sonnet在编码方面仍有微弱上风。
创意写作本事
:Deepseek v3的输出在风格上与GPT - 4o极其相似,包括相应模式、段落结构以及用词等方面。例如在对同一段落举行优化时,两者输出近乎相同,推测可能是基于GPT - 4o生成的合成数据集举行训练。不过在创意写作方面,Claude 3.5 Sonnet因具有更人性化的观点和见解而略胜一筹。
最终评价与实用场景
最终评价
:在推理和数学任务上,Deepseek v3表现最佳,依次领先于Claude 3.5 Sonnet和OpenAI GPT - 4o;在编码和创意写作任务中,Claude 3.5 Sonnet更具上风,Deepseek v3与GPT - 4o水平相近,Deepseek v3稍强一些。
实用场景
:假如利用场景主要围绕GPT - 4o展开,那么可以放心切换到Deepseek v3;对于构建基于大语言模型(LLM)的应用来说,Deepseek v3因其卓越的性价比,是开发面向客户端AI应用的不二之选;别的,该模型权重开源,用户可以或许自行托管,这给予了用户对模型更多的控制权。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/)
Powered by Discuz! X3.4