论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
人工智能
›
人工智能
›
DeepSeek 发布全新开源大模型,数学推理本领超越 LLaMA- ...
DeepSeek 发布全新开源大模型,数学推理本领超越 LLaMA-2 ...
半亩花草
金牌会员
|
2025-2-20 10:47:44
|
显示全部楼层
|
阅读模式
楼主
主题
979
|
帖子
979
|
积分
2937
自从 LLaMA 被提出以来,开源大型语言模型(LLM)的快速发展就引起了广泛研究关注,随后的一些研究就主要会合于训练固定大小和高质量的模型,但这往往忽略了对 LLM 缩放规律的深入探索。
开源 LLM 的缩放研究可以促使 LLM 提高性能和拓展应用领域,对于推进自然语言处置惩罚和人工智能领域具有紧张作用。
在缩放规律的指导下,为相识决现在 LLM 缩放领域中存在的不明确性,由 DeepSeek 的 AI 团队发布了全新开源模型 LLMDeepSeek LLM。
此外,作者还在这个基础模型上举行了监视微调(SFT)和直接偏好优化(DPO),从而创建了 DeepSeek Chat 模型。
在性能方面,
DeepSeek LLM 67B 在代码、数学和推理使命中均超越了 LLaMA-2 70B
,而 DeepSeek LLM 67B Chat 在开放性评估中更是超越了 GPT-3.5。这一系列的体现为开源 LLM 的将来发展奠定了一定基础。
论文标题
:
DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
论文链接
:
https://arxiv.org/abs/2401.02954
与作为人工通用智能(AGI)新标杆的 LLaMa 相比,本文提出的 DeepSeek LLM:
数据集规模
:DeepSeek LLM 使用了一个包罗 2 万亿字符的双语数据集举行预训练,这比 LLaMA 的数据集更大。
模型性能
:DeepSeek LLM 在多个基准测试中体现优于 LLaMA,特别是在代码、数学和推理方面。
模型架构
:固然 DeepSeek LLM 在微观计划上主要遵循 LLaMA ,但在宏观计划上有所不同。DeepSeek LLM 7B 是一个 30 层网络,而 DeepSeek LLM 67B 有 95 层。这些层数调整在保持与其他开源模型参数同等性的同时优化了模型的训练和推理。
可缩放研究
:DeepSeek LLM 对模型和数据标准的可缩放性举行了深入研究,并成功地揭示了最优模型/数据缩放分配策略,从而预测了大规模模型的性能。
安全性评估
:DeepSeek LLM 67B 体现良好,能够在实践中提供无害化的回复。
预训练
数据
:为了在确保模型在预训练阶段能够充实学习并获得高质量的语言知识,在
构建数据集
过程中,接纳了
去重、过滤和混合
三个基本阶段的方法,来加强数据集的丰富性和多样性。为了提高计算效率,作者还描述了分词器的实现方式,接纳了基于 tokenizers 库的字节级字节对编码(BBPE)算法,使用了预分词化和设置了适当的词汇表大小。
架构
:主要鉴戒了 LLaMA 的 Pre-Norm 结构,此中包罗 RMSNorm 函数,使用 SwiGLU 作为前馈层的激活函数,中间层维度为 ,此外还引入了 Rotary Embedding 用于位置编码。为了优化推理本钱,67B 模型没接纳传统的 Multi-Head Attention(MHA),而是用了 GroupedQuery Attention(GQA)。
超参数
:通过我们的实行证明,使用多步学习率调理程序的最终性能与余弦调理程序基本同等,如图 1(a) 所示,作者还在图 1(b) 中演示了调整多步学习率调理程序不同阶段比例,可以略微提升性能。
▲图1 使用不同砚习率调理程序或调理程序不同参数的训练损失曲线
缩放规律及影响
作者通过大量实行,探究了模型和数据大小与计算预算之间的关系。研究发现,
随着计算预算的增长,模型性能可以通过增长模型规模和数据规模来预测性地提高
。但是,不同数据集对缩放法则有明显影响,高质量的数据可以推动更大模型的训练。
超参数的缩放规律
在这部分,作者研究了 batch size 和学习率的缩放律,并找到了它们随模型大小的变化趋势。图 2 的实行展示了 batch size 和学习率与计算预算之间的关系,为确定最佳超参数提供了经验框架。
▲图2 训练损失关于 batch size 和学习率的变化
如图 3 所示,经验证明,batch size 随计算预算的增长而增长,而学习率则随计算预算的增长而减小。作者指出,他们的研究结果与一些早期研究中提到的观点不同等。这些研究大概认为最佳 batch size 仅与泛化毛病
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
半亩花草
金牌会员
这个人很懒什么都没写!
楼主热帖
YOLOV5 代码复现以及搭载服务器运行 ...
本周涨粉一倍,我决定再开源一个商超管 ...
Java集合框架(五)-Collections 和 泛型 ...
APP性能优化
安装Python
经典Python题目:一个列表或者数组去重 ...
Spring5——JdbcTemplate笔记
随机数漫谈
《C++性能优化指南》 linux版代码及原 ...
C++初探索
标签云
运维
CIO
存储
服务器
浏览过的版块
物联网
SQL-Server
运维.售后
快速回复
返回顶部
返回列表