天津大学:《2025深度解读DeepSeek:原理与效应》|44页|附PPT下载方法 ...

打印 上一主题 下一主题

主题 1044|帖子 1044|积分 3132

导 读

INTRODUCTION

今天禀享是由天津大学自然语言处理实验室团队带来的:《2025深度解读DeepSeek:原理与效应》,关于DeepSeek大语言模型技能原理与效应的报告文章,主要先容了DeepSeek模型的发展进程、技能创新、效应以及未来预测。详细先容了DeepSeek大语言模型的技能原理与创新,并通太过析其效应,展示了DeepSeek在推动AI技能进步和财产厘革中的重要作用。

   

  
天津大学:《2025深度解读DeepSeek:原理与效应》

  
网盘下载:https://pan.quark.cn/s/4e6d7b5688b0

  
后续会陆续分享DeepSeek讲座视频,关注我们不迷路哦!

以下是部门内容预览:



1.生成式AI与大语言模型发展:

生成式AI使用生成式模型生成各类数据,包罗语言、语音、图片和视频等。
核心技能包罗注意力机制(Attention)、Transformer架构、扩展法则(Scaling Laws)和与人类代价对齐的数据生成(RLHF)。
生成式求解问题(o1/R1)涉及生成复杂问题的答案,举行推理。







2.DeepSeek模型架构与技能创新:

DeepSeek V2:接纳希罕MoE模型,包罗DeepSeekMoE和MLA技能。模型总参数量为236B,激活参数量为21B,上下文窗口为128K。
DeepSeek V3:引入基础办法和多令牌猜测(MTP),实现一次猜测多个topken。模型总参数量为671B,激活参数量为37B,训练数据量为14.8T tokens。






3.DeepSeek效应:

算力代价战:DeepSeek的出现打破了传统技能护城河,引发了算力代价战。
开源与闭源:DeepSeek R1的开源发布是开源大模型历史上的里程碑,打破了美国AI企业的技能封闭。
认知误区:DeepSeek颠覆了美国对中国AI水平的认知,证明大模型研发成本可以大幅降低。




4.未来预测:

未来AGI/ASI的实现大概需要3-5个重大突破。
DeepSeek R2预计将很快发布,主要聚焦于数学、代码、逻辑推理等领域。
强调AI推理能力与安全性的联合,提出创新解决方案的需求。



篇幅有限以上只是部门内容概览
泉源:天津大学

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

勿忘初心做自己

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表