评估指标GPT-4GPT-3.5语言模型最先进(SOTA)最先进模型MMLU Hendrycks et al. (2020)86.4%70.0%70.7%75.2%HellaSwag Zellers et al. (2019)95.3%85.5%84.2%85.6%AI2 Reasoning Challenge (ARC) Clark et al. (2018)96.3%85.2%85.2%86.5%WinoGrande Sakaguchi et al. (2019)87.5%81.6%85.1%85.1%HumanEval (Chen et al., 2021)67.0%48.1%26.2%65.8%DROP Dua et al. (2019) (F1 score)80.964.170.888.4GSM-8K Cobbe et al. (2021)92.0%*57.1%58.8%87.3%表2:GPT-4在学术基准测试上的表现。我们将GPT-4与最佳SOTA(具有特定基准训练)和最佳的用于少量样本评估的LM进行比较。GPT-4在所有基准测试中均表现优异,并且在除了DROP数据集以外的所有数据集上均击败了具有基准特定训练的SOTA。对于每个任务,我们报告了GPT-4的性能以及用于评估的少量样本方法。对于GSM-8K,我们在GPT-4的预训练混合中包含了部分训练集(见附录E),并且在评估时使用了链式思维提示(Wei等人,2022a)。对于多项选择题,我们向模型呈现所有答案(ABCD)并要求其选择答案的字母,类似于人类解决此类问题的方式。
许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的能力,我们使用Azure Translate将MMLU基准测试(Hendrycks等人,2021a,b)——一个涵盖了57个学科的一套多项选择问题——翻译成了多种语言(请参阅附录F以获取示例翻译和提示)。
我们发现,在我们测试的大多数语言中,包括拉脱维亚语、威尔士语和斯瓦希里语等资源稀缺语言,GPT-4的表现优于GPT 3.5和现有的语言模型(如Chinchilla(Hoffmann等人,2022)和PaLM(Chowdhery等人,2022))的英语表现(图5)。
图5:GPT-4在多种语言上的表现与英语上先前模型在MMLU上的比较。对于绝大多数经过测试的语言,包括拉脱维亚语、威尔士语和斯瓦希里语等资源稀缺语言,GPT-4的表现优于现有语言模型(Hoffmann等人,2022;Chowdhery等人,2022)的英语表现。
GPT-4在跟随用户意图方面显著改进了先前模型的能力(Ouyang等人,2022)。在提交给ChatGPT OpenAI(2022)和OpenAI API Brockman等人(2020)的5214个提示的数据集上,GPT-4生成的回应优于GPT-3.5生成的回应,比例达到70.2%。
我们正在开源OpenAI Evals,这是我们创建和运行用于评估像GPT-4这样的模型的基准测试的框架,同时逐个样本检查性能。Evals与现有的基准测试兼容,并可用于跟踪模型在部署中的性能。我们计划随着时间的推移增加这些基准测试的多样性,以代表更广泛的失效模式和更难的任务。
4.1 视觉输入
Table 3: 示例提示展示了GPT-4的视觉输入能力。提示包括一个关于具有多个面板的图像的问题,GPT-4能够回答。**
Note: "示例提示展示了GPT-4的视觉输入能力。
提示包括一个关于具有多个面板的图像的问题,GPT-4能够回答。" translates to "Example prompt demonstrating GPT-4’s visual input capability. The prompt consists of a question about an image with multiple panels which GPT-4 is able to answer."* 5. 限制