三尺非寒 发表于 2024-8-6 11:15:14

meta-llama/Meta-Llama-3-8B

https://huggingface.co/meta-llama/Meta-Llama-3-8B
型号细节

Meta开发并发布了Meta Llama 3家族大型语言模型(LLM),这是一组预训练和指令微调的生成性文本模型,大小为8B和70B参数。Llama 3指令微调模型针对对话用例进行了优化,在常见的行业基准测试中体现优于许多可用的开源谈天模型。别的,在开发这些模型时,我们非常谨慎地优化了有用性和安全性。
模型开发者 Meta

变体 Llama 3有两种尺寸 - 8B和70B参数 - 预训练和指令微调变体。
输入 模型只接受文本输入。
输出 模型只生成文本和代码。
模型架构 Llama 3是一种自回归语言模型,使用优化的transformer架构。经过调解的版本使用监督fine-tuning(SFT)和人工反馈强化学习(RLHF)来实现有用性和安全性方面的人类偏好对齐。
      模型   训练数据   参数目   上下文长度   是否使用GQA   标志计数   知识截止日期       Llama 3   新的公开在线数据组合   8B   8k   是   15T+   2023年3月   Llama 3   新的公开在线数据组合   70B   8k   是      2023年12月 Llama 3系列模型。标志计数仅指预训练数据。8B和70B版本都使用Grouped-Query Attention(GQA)来提高推理可扩展

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: meta-llama/Meta-Llama-3-8B