【大模型】LLaMA-2:Open Foundation and Fine-Tuned Chat Models, July. 2023.
论文:LLaMA-2:Open Foundation and Fine-Tuned Chat Models, July. 2023.链接:https://arxiv.org/abs/2307.09288
Introduction
[*]创新点
7B - 70B
预训练 + 微调
开源Llama 2 和Llama 2-Chat,针对对话用例进行了优化
[*]Motivation
AI assistants 善于复杂的推理任务,通过直观的谈天界面与人类进行交互
大模型人类对齐(加强可用性和安全性)必要大量的成本,并且通常是不透明或容易重现的,限定了社区的进步
[*]Details
[*]Llama 2 在公开可用的新混淆数据上进行了训练,预训练语料库增加40%,增加模型的上下文长度,采用分组查询注意力,7B、13B 和70B
[*]Llama 2-Chat 同样包括7B、13B 和70B,训练数据差别(对话数据)
预训练
[*]预训练数据
更鲁棒的数据清洗,更新数据混淆,增加了40%的token(2 trillion tokens),double上下文长度,上采样most factual sources增加知识和克制幻觉。
[*]训练细节
布局上与lamma1一样,除了上下文长度和分组查询注意力grouped-query attention (GQA).
[*]超参数:warmup 2000,cosine learning rate sch
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]