【大模型】LLaMA-2:Open Foundation and Fine-Tuned Chat Models, July. 20 ...

十念  论坛元老 | 2025-4-20 06:54:00 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 1700|帖子 1700|积分 5100

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
论文:LLaMA-2:Open Foundation and Fine-Tuned Chat Models, July. 2023.
链接:https://arxiv.org/abs/2307.09288
Introduction


  • 创新点
    7B - 70B
    预训练 + 微调
    开源Llama 2 和Llama 2-Chat,针对对话用例进行了优化
  • Motivation
    AI assistants 善于复杂的推理任务,通过直观的谈天界面与人类进行交互
    大模型人类对齐(加强可用性和安全性)必要大量的成本,并且通常是不透明或容易重现的,限定了社区的进步
  • Details


  • Llama 2 在公开可用的新混淆数据上进行了训练,预训练语料库增加40%,增加模型的上下文长度,采用分组查询注意力,7B、13B 和70B
  • Llama 2-Chat 同样包括7B、13B 和70B,训练数据差别(对话数据)
预训练


  • 预训练数据
    更鲁棒的数据清洗,更新数据混淆,增加了40%的token(2 trillion tokens),double上下文长度,上采样most factual sources增加知识和克制幻觉。
  • 训练细节
    布局上与lamma1一样,除了上下文长度和分组查询注意力grouped-query attention (GQA).


  • 超参数:warmup 2000,cosine learning rate sch

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

十念

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表