GPT-4论文阅读

打印 上一主题 下一主题

主题 1028|帖子 1028|积分 3084

GPT-4 Technical Report论文阅读


  
官方博客地点:https://openai.com/research/gpt-4
Abstract

本篇固然是GPT-4的技术陈诉,但此中没有提到GPT-4的具体模型架构与练习过程,重要就是讲他的结果。

  • GPT-4是一个多模态的模型,可以大概接受文本或者是图片的输入,末了输出纯文本
  • GPT-4根本可以大概达到类人的体现,在究竟性、可控性和安全性上有了很大的进步

    • GPT-4在真实天下中与人还是存在差距,但是在很多具有专业性或者学术性的数据集或者使命上面上,GPT-4有时间可以大概达到甚至超过人类的程度
    • GPT-4可以大概通过状师测验资格证测验,且能在所有参加测验的人中排名前10%(GPT-3.5在同样的测验中无法通过,且只能排到末了10%)

练习的稳固性

在此次GPT-4的练习过程中,练习体现出了前所未有的稳固性


  • 练习稳固
  • 硬件办法没有堕落
  • 练习不会中断,一次练习直接跑到底
  • loss没有跑飞
  • 更紧张的是,可以准确预测模型练习的结果(通过在小规模盘算成本下练习出来的模型可以准确地预估扩大盘算成本之后模型的最终性能)
对于大模型来讲,如果每次跑完练习才知道结果(参数的优劣,改进是否有效),花销比较大,一般会在较小的模型或者较小的数据集上做消融实行,验证之后再去大模型上举行实行。对于语言模型来讲,由于语言的扩展较大,所以导致在小规模模型上做的实行可能有效,但是换到大模型上就达不到想要的结果了;而且大模型上特有的涌现能力在小模型上无法观测。
Training process

与之前的GPT模型类似,GPT-4也是通过预测文章中下一个词的方式(Language Modeling Loss)去练习的,练习所用到的数据是公开数据(网络数据和公司所购买的数据)


  • 数据集非常大,包含了非常多的内容,好比数学问题的精确的解和不精确的解、弱推理、强推理、自相矛盾或者保持同等的陈述、各种意识形态和想法,以及更多的纯文本数据
  • 由于在大量的数据集上练习过,而且有的时间是在不精确的答案上练习过,所以预练习模型(Base Model)有些时间的答复跟想要得到的答复相差很远。为了能跟人的意图尽可能保持同等,而且更加安全可控,所以使用RLHF(Reinforcement Learning with Human Feedback)的方法对模型举行了微调
模型的能力看起来像是从预练习的过程中得到的,后续RLHF所举行的微调并不可以大概进步在测验中的成绩(如果没有好好调参,甚至会降低测验的成绩)


  • 模型所谓的涌现的能力靠堆数据、堆算力,然后用简单的Language Modeling Loss堆出来的
但是,RLHF用来对模型做控制,让模型更加清楚人类的意图,而且按照人类所能接受的方式做出答复


  • 这个预练习模型甚至需要prompt engineering才知道需要答复问题
Predictable scaling

GPT-4的关键问题在于如何构建深度学习的infrastructure,然后准确地举行扩大


  • 练习的重要缘故原由是在大模型上是不可能做大规模的模型调参的,首先需要很多的算力,其次需要很长的练习时间。如果增加练习机器的数量,练习的稳固性也不能包管,多机器的并行练习很容易导致Loss跑飞
OpenAI研发出来了一套整体的infrastructure和优化方法,可以在多个尺度上的实行上达到稳固预测


  • 为了验证,利用内部的代码库在GPT-4模型刚开始练习的时间,就已经可以准确地预测到GPT-4最终练习完成的Loss(预测结果是由别的一个Loss外推出去的,用了比原始所需盘算资源小一万倍的盘算资源上用同样的盘算方法练习出来的模型)



  • 图中绿色的点是GPT-4最终的Loss的结果
  • 纵坐标可以明确成Loss的巨细,单元是Bits per word
  • 横坐标表现所使用的算力(这里将数据集的巨细、模型的巨细全部混在一起,表现总体练习一个模型所需要的算力),越往左,模型的练习代价越小
  • OpenAI通过将差别练习代价下的Loss点举行拟合,从而准确得到GPT-4最终的Loss
  • 在划一的资源下,可以以更快的速率实行更多的方法,末了得到更优的模型
下图也是类似,只是使命差别,但是得到的都是可预测的结果

但是另有一部分数据集是不能完全根据小模型预测的,如inverse scaling prize比赛,专门给大模型找茬,用来测试是否存在一些使命是小模型做的好,大模型反而做欠好的,而且最好可以大概找到那些使命(随着盘算成本的增加,使命的结果越来越差,除了GPT-4)



  • hindsight neglect:已往做一件事情的时间,使用很理性地判断做出一个决断,这个决断按原理来讲是精确的,但是运气欠好导致最终的结果不是很好,那么如果回到已往,是继承选择当初选择的理性做法还是愿意赌一把选择一个更冒险的方式
  • 按原理来讲,每次做选择都应该按照最理性的方式做选择,但是大模型在这种情况下出现了一个很故意思的征象:随着模型越来越大,反而越来越不理性,会根据末了的结果来判断到底应不应该做出决定
  • GPT-4的准确度达到了100%,从侧面说明了可能GPT-4已经拥有了一定的推理能力,不会受到末了结果的影响
练习的稳固性多么难能可贵

斯坦福MLSYS 在MetaAi怎样用三个月的时间做了一个跟GPT-3划一巨细的语言模型(OPT-175Billion)


  • 地点:https://www.bilibili.com/video/BV1XT411v7c9?t=1283.6
  • 模型固然性能一般,但是整个过程干货比较多



  • OPT-175Billion在整个一个多月的练习过程中,由于各种各样的缘故原由(机器崩掉,网络中断、Loss跑飞等),中间一共中断了五十多次,图中的每一段差别颜色就代表跑的一段
  • 练习一个大的模型的工程复杂度是难以想象的,所以GPT-4的乐成除了大量算力的投入,还需要很多的工程上的积极
Capabilities

测验成绩

在一样平常对话中,GPT-3.5和GPT-4的区别是非常小的,但是这个区别随着使命难度的增加慢慢会体现出来


  • GPT-4更加可靠,更加具有创造力,而且可以大概处理更加细微的人类的指示
为了弄清楚这两个模型之间的区别,OpenAI设计了一系列的benchmark,包含很多之前专门为人类设计的模拟测验,使用了近来公开的一些数据,好比奥赛题目、AP(美国高中的一些大学先修课中的问题、购买的执照测验的版权数据)。在这些测验上没有做过特别的练习


  • 可能有一些问题是之前在模型预练习的过程中被模型见过的,这里OpenAI为了澄清,他们跑了两个版本:一个版本是模型直接测验然后汇报分数;另一个版本固然接纳同样的模型,但是把在预练习数据集中出现的问题拿掉,只在那些模型可能没见过的问题上再做一次测试,末了取这两次的分钟较低的那一次来作为GPT-4的分数。希望这么做能更加具有说服力。
  • 这里的问题去重并没有说明具体的方法
  • GPT-4能在众多的测验中都取得较好的结果,说明其参加测验的能力还是不错的



  • 柱状图是按照GPT-3.5的性能从低到高举行分列的
  • GPT-3.5在最右侧的AP Environmental Science中体现是最好的
  • 淡绿色(no vision)表现没有使用图片
  • 图中可以看出GPT-4在有了图片加持之后,在有些测验上还能获得更大的进步
  • 在AP Caculus BC、AMC12、Codeforces Rating、AMC10上体现较差,GPT系列在数学上的体现比较差
  • 此外,固然GPT-4可以大概修改文案,修改语法、润色文章,但是在高中英语文学课上以及高中英语语言本身的测验上得分都比较差。GPT系列的模型固然可以大概生成大段大段的文字,但是它所写出来的东西很多时间就是翻来覆去地语言,都是一些空话大话,非常冠冕堂皇,并没有真正的思考,从而形成深刻的洞见
具体的测验结果如下图所示



  • 在生物比赛中,GPT-4的体现很好几乎是第一名
  • 但是在 Codeforces Rating写代码测试中,GPT-4的体现并不如人意,甚至在某些情况下体现更差
传统的benchmark

GPT-4在传统的benchmark上的性能测试结果如下图所示,几乎刷新了之前的state-of-the-art

语言方面的能力



  • GPT-4在多语言上已经做得很好了,不但是英语语系中的各种语言,对中文的支持也是不错的(可以大概识别拼音的输入,简体/繁体的转换也可以大概处理)
  • OpenAI为了举行测试,将MMLU全部举行了翻译(将14000多个多选题用微软的翻译全部翻译成差别的语言),通过测试发现,在26个语言中,此中24个语言中的测试结果GPT-4都要优于GPT-3.5和其他的一些大模型(Google的Chinchilla、PaLM),而且甚至在那些没有什么练习语料库的语言(Latvian、Welsh、Swahili)上体现也很好

Visual inputs

GPT-4是一个多模态的模型,可以接受图片作为输入


  • GPT-4可以允许用户任意自定义视觉或者语言使命
  • 不管用户输入的是文本、图片或者是图片和文本混淆的形式,GPT-4都能生成文本(自然语言、代码)
  • GPT-4在其他使命上的体现也很不错,尤其是test-time techniques

  • 这是一个用VGA线给手机充电的图片,很多时间GPT-4都能给出解释,而且是一步一步的解释为什么搞笑


  • 图中是一个截图,并不是机器可以大概直接阅读的,需要内部自己做一个OCR才气让模型知道图片中到底是什么内容(截图中是一道法语描述的物理题)GPT-4用英语举行了一步一步的解释,末了得出答案


  • 将一篇论文直接输入进GPT-4,让它输出对论文的总结。GPT-4可以大概很好地总结所输入的论文

Steerability

定义语言模型的行为,让语言模型按照用户所想要的方式举行答复


  • 相比于ChatGPT,ChatGPT的人格是固定的,每次都是同样的语调语气,复兴的风格也是同等的;最新的GPT-4开辟了一个新功能,除了发给它的prompt(描述用户需求的文字),前面添加了System Message
  • System Message可以定义AI使用什么样的语气语调举行对话
作为一个苏格拉底式的辅导员,复兴永久都应该是保持苏格拉底的风格,即永久不告诉门生真正的答案,而是扣问一些启发式的问题,通过暗示来举行辅导让门生自己意识到问题的办理方式,从而造就门生自己办理问题的能力。在这个过程中,将难度较大的问题举行拆分,在门生可以大概听懂的程度上举行因材施教。

Limitations


  • 在能力和范围性方面,GPT-4和之前的GPT系列模型差不多,还是不能完全可靠,有的时间还是会瞎编乱造,扭曲究竟,而且推理的时间也可能会堕落。因此在使用这些大模型的时间还是需要更加小心审慎,尤其是在一些高风险的领域(法律、金融、新闻、政治)中

    • 固然这些问题依然存在,但是GPT-4跟之前其他的模型以及表面的模型相比,在安全性上已经大幅进步了
    • 在OpenAI内部专门用来举行对抗性测试的Evaluation Benchmark上,GPT-4比之前的GPT-3.5的得分要高出40%以上,提升显著


图中纵坐标表现准确度,横坐标表现OpenAI内部所使用的benchmark所涉及的领域

  • GPT-4本身还会有各种各样的偏见,目前已经取得了一些进步,但是另有很多需要做的
  • GPT-4一般是缺少2021年9月份之后的知识,由于预练习数据就是截止到2021年9月份

    • 但是ChatGPT有很多个版本,可能后续微调或者RLHF的时间,可能包含更新之后的数据,所以有时间也能精确答复2021年之后的一些问题

  • GPT-4在很多的领域里都体现出强大的能力,取得很高的分数,但是有时间会犯一些非常简单的推理错误,看上去有点不可思议

    • 如果用户故意输入一些虚假的陈述,GPT-4还非常容易上当上当

  • 在一些特别困难的问题上,GPT-4跟人差不多,都会出现安全隐患,可能会写出不精确的代码。但是GPT-4哪怕有的时间预测错误了,也会非常自信

    • 通过研究发现,这是由于经过预练习之后,GPT-4的model calibration做的非常完美(calibration可以明确为模型有多大的自信认为自己的预测是对的)




  • 从图中可以大概看出,模型经过了完美的矫正,即模型对自己的预测越有信心,他的预测就越可能是精确的(可以由于预练习的语料库比较大,已经把握了客观究竟的规律,因此模型对自己产生的结果比较自信)
  • 但是经过后处理(Instructed Tuning或者是RLHF)之后,calibration的效果就没有了,模型的校准就没有处理前好了(可能是经过RLHF之后,模型更接近于人,具备一定的主观性,因此校准性能就下降了)
Risks & mitigations


  • Red Teaming

    • 通过找各个领域的专家扣问模型该问和不该问的问题,希望让模型知道哪些应该答复,哪些不该答复,通过人力的过程搜集数据,从而提升GPT-4的能力,可以大概拒绝不合理的要求

  • GPT-4还利用自己来提升安全性的要求,在后续的RLHF的练习过程中,又新加了一个专门做安全的reward signal

    • 这个reward signal是从自己已经预练习好的GPT-4模型开始,通过分类器分类当前prompt到底是不是sensitive,是不是存在危险,可能不应该举行答复
    • 通过reward signal让RLHF更加智能,让模型更加贴合人的意图,而且更加安全

  • 这种淘汰risk的方式可以大概显著提升GPT-4的安全性能,和GPT-3.5相比,对于那些不该答复的问题,GPT-4能比GPT-3.5少答复82%的问题
哪些工作可能会被GPT-4代替?

论文:GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

  • 大概有80%的美国劳动力会由于大语言模型的到来而受到影响,大概是平时工作中10%的使命(剩余90%的使命仍然需要人来完成),19%的工人会发现有50%的工作有可能会被影响(AI至少可以大概完成50%以上的工作使命)
  • 受影响比较少的工作,如果有做科研(基础科学研究)的能力或者思维比较缜密,可以大概快速做出合理的决定,这些技能点大语言模型临时还不具备
  • 受影响比较多的工作,和大语言模型冲突的技能点:写代码、写文章。凡是和这两个技能点相关的工作可能会收到较大的影响
纵然有些工作不会被GPT-4代替,如服务员、泥瓦匠,但是也会被其他的AI机器人代替。所以这篇文章讲的不会受影响的工作也是相对的(所以没列出来)。
未来研究方向

现在机器学习另有很多的问题悬而未决,而且现在大语言模型碰到的问题其实跟30年前机器学习领域碰到的问题还是一样的,现在依然不知道大语言模型到底是怎样工作、怎么泛化的:


  • 如何从单语言到多语言?
  • 为什么会具有涌现的能力?
  • 如何进步模型做推理的能力(尤其是做因果推理)?
  • 需要更多的方式阻止语言模型生成有害的文字或者带来比较坏的社会影响
  • 目前模型仅仅范围于文本,更多的问题都是在文本之外的,另有更多的模态等候探索

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

大号在练葵花宝典

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表