ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、C ...

打印 上一主题 下一主题

主题 531|帖子 531|积分 1593

3 评价结果

3.1 Spider 数据集


表 2 列出了各种提示策略和模型组合的执行正确性 (EX) 和测试套件 (TS) 的正确性。我们的主要发现是:


  • 开源模型在 Spider 数据集上遇到了困难:尽管参数数量和模型性能之间存在正相关关系,但开源模型在 Spider数据集上实现高精度方面面临着挑衅。 例如,尽管 Vicuna 7B 和 13B 已证明比原始预训练的 LLaMA 7B 和 13B模型有所改进,但与 Bard 和 GPT-3.5 相比,性能仍旧存在显着差距。 此外,与 LLaMA 的 13B 版本相比,Dolly模型在不同的提示策略上也表现不佳。
  • LLM的表现对提示风格高度敏感:我们的实证研究结果证实,不存在实用于全部模型的通用提示策略。 虽然 IS 提示策略对于GPT-3.5、Bard、Vicuna 和guanaco 被证明是有效的,但对于 Dolly 和 LLaMA 来说却产生了次优的正确度。令人惊奇的是,LLaMA 在使用 S3 提示时实现了最佳结果,相比之下,GPT-3.5 的性能明显恶化。
  • 使用随机示例的小样本学习提供的性能提拔有限:从 1SL 和 5SL得到的大多数结果往往表现不佳,或者充其量只能到达与其他提示策略相当的结果。 然而,这种趋势也有一些例外。 Dolly 模型是一个例外,与12B 变体中的其他提示策略相比,该模型表现 1SL 提示策略的性能有所提高。 这个结果好像是反常的,因为在其他 1SL 和 5SL结果中没有观察到雷同的性能提拔。 另一个例外是 LLaMA 模型,此中少样本提示策略优于一些零样本策略。 例如,30B LLaMA模型仅用 5 个给定示例就实现了 22.4% EX 和 19.9% TS 正确率,这接近于guanaco 模型的性能(24.4% EX 和19.0% TS)。
3.2 经典数据集

由于Academic, Restaurants, IMDB,Yelp 没有有训练集,我们从其他经典数据集的评估会合抽取 1SL 和 5SL 的示例。 我们根据表 3 中的结果强调了一些主要发现:


  • LLM在大多数经典数据集上表现不佳:特别是,与之前研究中报告的基线性能相比,这些数据集上到达的最高正确率分别仅为 2.9% 和 2.4%,明显低于使用 LSTM 或 BERT 的传统 seq2seq模型的其他研究中观察到的基线结果 34.0% 和 45.2%(Devlin 等人, 2019)。此外,即使进行了指令调解,Vicuna、Guanaco 和 Dolly 在经典数据集上也面临着相当大的挑衅。它们在各种提示策略和数据集组合中的执行精度通常几乎为零。
  • 不同模型的少样本学习的有效性有所不同:与 Spider 数据集的发现相比,我们观察到 LLaMA 和 GPT-3.5 在 1SL 和5SL 上的性能有所改进。 例如,使用 1SL,GPT-3.5 在 GeoQuery 数据集上的性能从 15.4% 提高到42.3%,而使用 5SL,LLaMA 在同一数据集上的性能也从 12.1% 显着提高到 15.4%。 然而,我们没有看到 Dolly、Vicuna 和 Bard 的 1SL或 5SL 具有雷同的性能改进。
  • 附加数据库示例行是无效的:就像使用Spider数据集观察到的结果一样,S3 提示策略在应用于不同模型的经典数据集时会产生低于标准的结果。因此,很明显,S3 提示策略在 Text-to-SQL 情况中可能并不有效。
4.探讨

4.1 LLM 是否生成有效的 SQL?

大型语言模型性能不佳的一个可能的解释是它们无法理解旨在生成 SQL 语句的提示背后的意图。 劈面临许多 S3 提示时,GPT-3.5 无法生成有效的相应。 为了评估此类实例的范围,我们绘制了图 1a 和 1b 中各种大型语言模型使用不同提示策略生成的有效 SQL 语句的比例。对于 Spider 数据集,我们发现许多模型(Dolly 除外)划一,使用 IS、1SL 和 5SL 提示策略在 90% 以上的时间内生成有效的 SQL 相应。 有趣的是,LLaMA 还展示了生成有效 SQL 语句的能力,尽管它没有在指令数据集上进行专门的微调。 对于经典数据集,Bard-P2 和 GPT-3.5 仍旧能够生成 80-100% 范围内的有效 SQL。 然而,Vicuna 和 Dolly 等开源模型在实现有效 SQL 百分比高于 75% 方面遇到了挑衅。 特别值得注意的是 LLaMA 和guanaco 中观察到的不同趋势。 LLaMA 通过小样本学习生成更有效的 SQL,而guanaco 的性能随着示例数量的增加而下降。
此外,我们注意到 AD 和 S3 提示策略通常不是最优的,因为它们会导致许多大型语言模型的全部数据会合有效 SQL 相应的数量显着减少。 GPT-3.5 特别轻易受到 S3 提示策略的影响,导致Spider数据集和经典数据会合生成的有效 SQL 的百分比急剧下降。末了,必要强调的是,尽管这些语言模型可以生成有效的 SQL 重新生成,但 sponses,这些 SQL 在语义上通常禁绝确,而且无法充分办理输入文本问题。 因此,大多数数据集的执行精度都非常低。


4.2 样本选择怎样影响1SL和5SL的性能?

在提示中包含训练会合的随机示例并不会显着提高不同模型的性能

根据表 2 和表 3 中的结果,很明显,在提示中包含训练会合的随机示例并不会显着提高不同模型的性能。 唯一的例外是 LLaMA 和 GPT-3.5,它们在使用 1SL 和 5SL 提示策略时在大多数经典数据集上表现出显着的改进。 使用 1SL 或 5SL 提示策略提高 LLaMA 的性能可部分归因于如许一个究竟:让 LLaMA 接触更多示例可以显着加强其生成有效 SQL 的能力,如图 1b 所示。
LLM 顺应规范化 SQL 风格

另一个值得注意的观察是,当向大型语言模型提供来自经典数据集的示例时,它们开始以雷同于 Finegan-Dollak 等人中描述的规范化格式的风格生成 SQL。 (2018),如图 2 所示,此中表别名遵循 <TABLE_NAME>alias 的标准化约定。

LLM 对风格变革的敏感性

为了评估语言模型 (LLM) 在使用 1SL 和 5SL 生成 SQL 时遵循规范化 SQL 风格的程度,我们查抄了生成的包含术语“别名”的 SQL 语句的比例表 4 中。我们的研究结果表明,只有在接纳 1SL 和 5SL 提示策略时,生成的 SQL 样式的变革才明显。 值得注意的是,LLaMA 在全部模型中脱颖而出,因为它始终将术语“别名”附加到超过 86% 的生成 SQL 语句中。 有趣的是,Bard 对规范化 SQL 样式不太敏感,仅在全部生成的 SQL 中 16.0% 观察到样式更改。 另一方面,GPT-3.5 表现出更高的敏感性,超过 50% 的生成 SQL 受到影响。基于这一观察,我们假设这种敏感性差别可能是 LLaMA 和 GPT-3.5 接纳的 1SL 和 5SL 提示策略取得更大成功的一个促成因素。

不同泉源的采样对性能的影响

我们通过对涉及从训练集以外的泉源采样示例的实验进行扼要讨论来结束本节。 表 5 列出了从两个不同泉源获取样本时得到的 1SL 和 5SL 结果:1)Spider 训练集,2)评估集。 在第二种情况下,我们采取预防措施,通过过滤掉与感兴趣的问题具有相同 SQL 答案的全部示例,避免任何潜伏的答案泄漏。 我们发现,使用 Spider 数据会合的示例不但不能产生任何好处,而且还会导致模型性能下降,比零样本方法的性能更差。 另一方面,当我们包含评估会合的示例时,我们会观察到评估结果的改进。 颠末细致查抄提示,我们发现一些例子在语法上与预期的 SQL 相应雷同,主要区别在于表、列和值。 这一发现凸显了LLM对提示中提供的示例的敏感性。 我们假设,如果我们向LLM提供语法上接近预期 SQL 相应的示例,它们可能会生成更正确的 SQL 语句。

4.3 我们是否真正以零样本或少样本的方式评估文本到 SQL 数据集?

我们已经确定了几个潜伏的数据污染源(Elangovan et al., 2021; Lewis et al., 2021; Magar and Schwartz, 2022),这些泉源引起了人们对文本零样本或少样本评估的真实性质的担心 -to-SQL 数据集。 这些泉源包罗 GitHub 存储库上的 Spider 数据集和经典数据集的可用性,以及 Huggingface 数据集等平台上的 Spider 数据集的存在。 此外,文本到 SQL 数据集还可以包含在指令调解数据集聚会合,例如 FLAN(Wei 等人)。 我们在论文的结尾提出了一个问题,供研究人员思考:当大型语言模型已经接触到我们的评估数据时,我们是否真的在对大型语言模型进行零样本或少样本评估?
5 相关工作

最近,基于解码器的大型语言模型对代码生成使命做出了巨大贡献(Li et al., 2023b; Fu et al., 2023; Darm et al., 2023)。 这些模型使用大规模文本数据的无监督自回归学习,使它们能够捕捉丰富的语义关系和单词的概率分布。 尽管它们在上下文中仅用一个或几个例子就表现出色,但最近的研究表明,它们在涉及复杂推理的文本到 SQL 使命中仍旧面临挑衅(Liu 等人,2023)。
有几项工作专注于通过加强的提示计划来提高大型语言模型的文本到 SQL 解析能力。 Nan 等人进行的一项研究中。 (2023),作者强调了细致选择情境学习示例的重要性。 他们证明,结合示例查询中的句法结构可以极大地加强大型语言模型的小样本能力。 Chang 和 Fosler-Lussier (2023) 进行了一项全面的研究,探讨提示长度对文本转 SQL 模型性能的影响。 此外,他们还查抄了跨不同领域的数据库知识表现的敏感性。 郭等人。 (2023)提出了一种基于案例的推理框架,通过自顺应检索案例提示来调解跨域设置中 GPT-3.5 的输入。 拉伊等人。 (2023) 使用基于界限的技术提高大型语言模型的泛化能力,这些技术在模式和 SQL 的标记级别和序列级别上预处理提示。
同时,一些研究还探索了复杂的多步调推理在提高大型语言模型在文本到 SQL 解析方面的性能的潜伏好处。 Tai 等人(2023)表明,从最少到最多的提示(Zhou 等人,2023)可能是不必要的,直接应用头脑链(CoT)提示(Wei 等人,2022)可能会导致 到错误传播。 Liu and Tan (2023) 为文本到 SQL 使命引入了一种划分和提示范例,此中涉及将使命划分为多个子使命并对每个子使命应用 CoT 方法。 在 Pourreza 和 Rafiei(2023)的另一项研究中,在零样本设置中接纳了自我校正模块,以在 Spider 排行榜上取得新的最先进结果。 该模块将每个子问题的办理方案反馈给大语言模型,使其能够构建更好的整体办理方案。
6 结论和未来工作

本文使用五种不同的提示策略,系统地评估了九个基准数据集上六种流行的大型语言模型的文本到 SQL 解析能力。 我们的研究结果表明,与闭源模型相比,开源模型的性能明显不足。 然而,值得注意的是,即使是 GPT-3.5 在几个经典数据集上的表现也比较小的基线模型更差。 我们正在提供我们的成果以供进一步分析并促进未来的研究工作。 我们未来想要探索几个研究课题。 首先,我们计划使用有限的 GPU 资源,使用低秩顺应等技术,研究在 Text-to-SQL 数据集上对这些大型语言模型进行微调。 (2021)。 其次,我们想探索可以动态选择上下文学习示例的方法。 末了,我们有兴趣研究在多轮文本到 SQL 数据集(例如 SPARC)上使用这些大型语言模型的可行性和范围性(Yu 等人,2019)。
范围性
首先,我们承认这项研究的范围仅限于六种大型语言模型,而且这些模型并不涵盖整个研究领域。 该家属中出现了令人高兴的新条目,例如 Falcon 模型。其次,在某些经典数据集的数据库模式中附加 5 个示例在某些情况下可能会超出开源模型的 2048 个令牌限制,从而导致截断 这可能会处罚这些具有较短上下文窗口的模型。 末了,一些模型不但生成 SQL 语句,还生成补充信息,包罗解释。 为了确保正确性,我们开辟了正则表达式模式,旨在尽最大积极仅提取 SQL 语句。 尽管云云,我们承认我们的规则可能并非完全万无一失,而且在某些情况下可能会引入错误的 SQL
论文原文:Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco vs Bard vs ChatGPT - A Text-to-SQL Parsing Comparison

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

王海鱼

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表