GPT 1-3(速通版)

打印 上一主题 下一主题

主题 957|帖子 957|积分 2871

概述

发布时间线:


  • Transformer 2017 年 6 月
  • GPT1:2018 年 6 月
  • Bert: 2018 年 10 月
  • GPT2:2019 年 2 月
  • GPT3:2020 年 5 月

bert 得当较小数据集、GPT 必须要超大规模数据集才能有用。
GPT-4 未有论文。

GPT-1(2018 年 6 月)



  • GPT1 参数量:大概 1 亿参数

    • 12 层 decoder(维度 768,12 个留意力头)

  • 训练集:7000 本书籍(8 亿个单词)



GPT-2(2019 年 2 月)



  • 名称:《Language Models are Unsupervised Multitask Learners》【语言模型是无监督的多任务学习者】
  • 时间:2019 年 2 月
  • 作者:OpenAI 6 人(负责人是 ilya)
  • 代码:https://github.com/openai/gpt-2(没有提供训练代码,也没有最大号预训练模型)
  • 一段话总结 GPT-2:用的 transformer 解码器布局(48 层 decoder),15 亿参数,模型输入是文本,输出也是文本。训练数据源自 reddit 上被点赞的 4500 万个网站链接,各种筛选后获得 800 万文本,大概 40GB 文本数据量。预训练模型能够实现 zero-shot,即无需微调直接能在各种范畴使用。在浩繁 zero-shot 范畴到达 SOTA,并且这种架构的精度天花板还远未触及,只要继续去提高参数量和数据量。



GPT-3(2020 年 5 月)

模型布局跟 GPT-2 险些完全一致,调整的部分是:采用稀疏留意力(只有临近 token 进行留意力计算)。
GPT-3 最大特点

  • 明显提高了在零样本学习和少样本学习上的表现,它能够通过简朴的提示(prompts)来执行各种任务,无需额外的训练。


GPT-3 在几十种范例任务中的平均表现(此中很多范畴,few shot 能力凌驾其他 SOTA 模型的微调)


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

不到断气不罢休

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表