论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
数据库
›
分布式数据库
›
Deepseek v3 的笔记
Deepseek v3 的笔记
诗林
金牌会员
|
2025-1-5 07:40:55
|
显示全部楼层
|
阅读模式
楼主
主题
720
|
帖子
720
|
积分
2160
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
基本概述
Deepseek v3是Deepseek发布的旗舰模型,属于607B的混淆专家(MoE)模型,其中活泼参数为37B。在当前的模型领域,它堪称最佳的开源模型,性能超越了Llama 3.1 405b、Qwen和Mistral等知名模型。根据基准测试效果,它与OpenAI的GPT - 4o以及Claude 3.5 Sonnet处于同一水平,并且在某些任务上的表现还要更胜一筹。
训练上风及突破
成本与效率
:在训练方面取得了令人瞩目的结果,仅花费约600万美元,在英伟达h800s集群上利用278.8万个GPU小时,基于14.8万亿高质量数据完成了预训练。与之形成鲜明对比的是,Llama 403b的训练数据量是其11倍,消耗了3084万个GPU小时,并且同样基于约15万亿的token举行训练。
技术创新
模型架构
:
MoE架构
:采用混淆专家(MoE)架构,在处置惩罚每个token时,仅激活37B的参数,相较于传统的密集模型,这种稀疏激活方式极大地低落了盘算需求。
多头潜在注意力(MLA)
:运用此技术压缩了键值(Key - Value)缓存,不但减少了内存利用量,还使得训练过程更加高效。
FP8混淆精度训练
:实现了FP8混淆精度训练框架,与传统的FP16/FP32格式相比,内存占用最多可低落50%。同时,通过采用细粒度量化策略以及提高累加精度,在提升训练速率的同时有用包管了模型的精确性。
负载均衡策略
:针对MoE架构,首创了无辅助损失的负载均衡策略,这种策略在不引入传统辅助损失方法弊端的条件下,有用提升了模型的性能。
训练框架
:开发了自界说的HAI - LLM训练框架,该框架具备多项优化:
双管道算法
:通过双管道算法实现了高效的流水线并行,减少了流水线中的气泡,实现了盘算和通信的重叠,从而提高了训练效率。
高效通信内核
:具备高效的跨节点全对全通信内核,可以或许充实利用网络带宽,加速数据传输。
内存优化
:通过经心的内存优化步伐,避免了利用成本高昂的张量并行,进一步低落了训练成本。
新增特性
Deepseek v3新增了深度思考(Deepthink)功能,融入了Deepseek R1系列模型的思维链(CoT)本事。具体做法是通过创新的知识蒸馏方法,将R1系列模型的推理本事迁徙到Deepseek v3中,在这个过程中,奇妙地将R1的验证和反思模式融入其中,不但显著提升了v3的推理性能,还可以或许对v3的输出风格和长度举行有用控制。用户可以在Deepseek谈天界面中启用该特性,只管其效果不如o1,但对模型推理本事有一定程度的加强。
与其他模型的性能对比
作者围绕推理、数学、编码、创意写作四个关键领域,利用一系列基准问题对Deepseek v3、GPT - 4o和Claude 3.5 Sonnet举行了测试:
推理本事
:
“找第四个单词”问题
:未启用Deepthink CoT时答复错误,启用后经太过析思考,精确找出了句子中的第四个单词,证明该特性有助于提升推理精确性。
“数单词数量”问题
:Deepseek v3答复错误,但GPT - 4o和Claude 3.5 Sonnet同样未能答对。
“草莓单词中r的数量”问题
:Deepseek v3精确答复,而GPT - 4o从未答对过该问题。
“农夫与羊过河”问题
:无论是否启用Deepthink CoT,Deepseek v3都未能得出精确答案,但整体来看,它在推理本事上仍优于GPT - 4o和Claude 3.5 Sonnet,虽不及o1,但表现也较为出色。
数学本事
:
简单减法运算
:对于“5.11 - 5.90”这类简单数学问题可以或许精确盘算。
平行四边形极点问题
:在求平行四边形可能的第四个极点问题上,Deepseek v3可以或许精确找出全部可能的极点,而GPT - 4o和3.5 Sonnet只能找出一个。
整数求和问题
:面对较复杂的整数相关数学问题,启用Deepthink特性后,Deepseek v3给出了精确答案,表明其数学本事强于GPT - 4o和Claude 3.5 Sonnet。
编码本事
:利用LeetCode上较新的“Super Heroes”这一“Hard”难度的动态规划问题举行测试。Deepseek v3首次答复时完全失败,一个测试用例都未通过,但再次尝试时给出了完美办理方案,且性能表现优秀。综合来看,其编码本事接近GPT - 4,但Claude 3.5 Sonnet在编码方面仍有微弱上风。
创意写作本事
:Deepseek v3的输出在风格上与GPT - 4o极其相似,包括相应模式、段落结构以及用词等方面。例如在对同一段落举行优化时,两者输出近乎相同,推测可能是基于GPT - 4o生成的合成数据集举行训练。不过在创意写作方面,Claude 3.5 Sonnet因具有更人性化的观点和见解而略胜一筹。
最终评价与实用场景
最终评价
:在推理和数学任务上,Deepseek v3表现最佳,依次领先于Claude 3.5 Sonnet和OpenAI GPT - 4o;在编码和创意写作任务中,Claude 3.5 Sonnet更具上风,Deepseek v3与GPT - 4o水平相近,Deepseek v3稍强一些。
实用场景
:假如利用场景主要围绕GPT - 4o展开,那么可以放心切换到Deepseek v3;对于构建基于大语言模型(LLM)的应用来说,Deepseek v3因其卓越的性价比,是开发面向客户端AI应用的不二之选;别的,该模型权重开源,用户可以或许自行托管,这给予了用户对模型更多的控制权。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
诗林
金牌会员
这个人很懒什么都没写!
楼主热帖
Windows安装mamba全流程(全网最稳定最 ...
Android技能整理:一文秒懂Flutter跨平 ...
【Linux】Ubuntu20.04解决网卡、显卡驱 ...
Adobe2024全家桶win及Mac系统安装包下 ...
Java软件架构师-25个关注点
24年首批!上海通管通报违规app涉及欧莱 ...
【Linux】网络设置(静态/动态/手动/nm ...
服务网格主动故障检测及流量切换方案 ...
【职场大揭秘】公司可以看到员工电脑在 ...
小步伐中Java背景调用getAccessToken接 ...
标签云
AI
运维
CIO
存储
服务器
浏览过的版块
DevOps与敏捷开发
程序人生
Mysql
IOS
.Net
网络安全
物联网
快速回复
返回顶部
返回列表