论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
【大模型】LLaMA-2:Open Foundation and Fine-Tuned Cha ...
【大模型】LLaMA-2:Open Foundation and Fine-Tuned Chat Models, July. 20 ...
十念
论坛元老
|
2025-4-20 06:54:00
|
显示全部楼层
|
阅读模式
楼主
主题
1700
|
帖子
1700
|
积分
5100
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
论文:LLaMA-2:Open Foundation and Fine-Tuned Chat Models, July. 2023.
链接:https://arxiv.org/abs/2307.09288
Introduction
创新点
7B - 70B
预训练 + 微调
开源Llama 2 和Llama 2-Chat,针对对话用例进行了优化
Motivation
AI assistants 善于复杂的推理任务,通过直观的谈天界面与人类进行交互
大模型人类对齐(加强可用性和安全性)必要大量的成本,并且通常是不透明或容易重现的,限定了社区的进步
Details
Llama 2 在公开可用的新混淆数据上进行了训练,预训练语料库增加40%,增加模型的上下文长度,采用分组查询注意力,7B、13B 和70B
Llama 2-Chat 同样包括7B、13B 和70B,训练数据差别(对话数据)
预训练
预训练数据
更鲁棒的数据清洗,更新数据混淆,增加了40%的token(2 trillion tokens),double上下文长度,上采样most factual sources增加知识和克制幻觉。
训练细节
布局上与lamma1一样,除了上下文长度和分组查询注意力grouped-query attention (GQA).
超参数:warmup 2000,cosine learning rate sch
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
十念
论坛元老
这个人很懒什么都没写!
楼主热帖
Velero系列文章(四):使用Velero进行 ...
Kali Linux利用MSF入侵安卓手机(小白版 ...
SonarQube安全扫描
C/C++函数的调用约定详解
三天吃透Kafka面试八股文
Android Studio 实现登录注册-源代码 ...
微光互联 TX800-U 扫码器无法输出中文 ...
xmrig挖矿样本分析 miner
Python嘎嘎涨知识的7个小游戏,玩过的 ...
Java多线程(一篇从0讲透)
标签云
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表