不到断气不罢休 发表于 2025-3-19 23:01:45

GPT 1-3(速通版)

概述

发布时间线:


[*] Transformer 2017 年 6 月
[*] GPT1:2018 年 6 月
[*] Bert: 2018 年 10 月
[*] GPT2:2019 年 2 月
[*] GPT3:2020 年 5 月
https://i-blog.csdnimg.cn/direct/b1e011724c8d4f10b707abd80dc5bcca.png
bert 得当较小数据集、GPT 必须要超大规模数据集才能有用。
GPT-4 未有论文。

GPT-1(2018 年 6 月)



[*] GPT1 参数量:大概 1 亿参数

[*] 12 层 decoder(维度 768,12 个留意力头)

[*] 训练集:7000 本书籍(8 亿个单词)
https://i-blog.csdnimg.cn/direct/f080fa3e40f445a594ee47919ce3ccb1.png


GPT-2(2019 年 2 月)



[*] 名称:《Language Models are Unsupervised Multitask Learners》【语言模型是无监督的多任务学习者】
[*] 时间:2019 年 2 月
[*] 作者:OpenAI 6 人(负责人是 ilya)
[*] 代码:https://github.com/openai/gpt-2(没有提供训练代码,也没有最大号预训练模型)
[*] 一段话总结 GPT-2:用的 transformer 解码器布局(48 层 decoder),15 亿参数,模型输入是文本,输出也是文本。训练数据源自 reddit 上被点赞的 4500 万个网站链接,各种筛选后获得 800 万文本,大概 40GB 文本数据量。预训练模型能够实现 zero-shot,即无需微调直接能在各种范畴使用。在浩繁 zero-shot 范畴到达 SOTA,并且这种架构的精度天花板还远未触及,只要继续去提高参数量和数据量。
https://i-blog.csdnimg.cn/direct/71a0d40a9ceb43f69d25c038fd304c71.pnghttps://i-blog.csdnimg.cn/direct/b8941216662f4a1db8f59ab2509e0845.png


GPT-3(2020 年 5 月)

模型布局跟 GPT-2 险些完全一致,调整的部分是:采用稀疏留意力(只有临近 token 进行留意力计算)。
GPT-3 最大特点:

[*] 明显提高了在零样本学习和少样本学习上的表现,它能够通过简朴的提示(prompts)来执行各种任务,无需额外的训练。
https://i-blog.csdnimg.cn/direct/e89fbe13b2a743e5ac5ea18afc8627d9.png
https://i-blog.csdnimg.cn/direct/0ca54f117cd847f2921436162e8a5fb5.png
GPT-3 在几十种范例任务中的平均表现(此中很多范畴,few shot 能力凌驾其他 SOTA 模型的微调)


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: GPT 1-3(速通版)