使用 LLM 作为来评估 SQL 天生,结果带来惊喜!

打印 上一主题 下一主题

主题 571|帖子 571|积分 1713

    欢迎来到雲闪世界。LLM 的一个潜伏应用引起了人们的关注和投资,即其天生 SQL 查询的能力。使用自然语言查询大型数据库可解锁多种引人注目标用例,从提高数据透明度到提高非技能用户的可访问性。
然而,与任何 AI 天生的内容一样,评估题目也很重要。我们如何确定 LLM 天生的 SQL 查询是否精确并产生预期结果?我们最近的研究深入探究了这个题目,并探索了使用LLM 作为评判标准来评估 SQL 天生的有用性。
调查结果摘要

LLM 作为评判者在评估 SQL 天生方面表现出初步的潜力,在本次实验中使用 OpenAI 的 GPT-4 Turbo 时,F1 得分在 0.70 到 0.76 之间。在评估提示中包罗相关架构信息可以显著减少误报。尽管仍然存在挑衅(包罗由于架构解释不精确或对数据的假设而导致的误报),但 LLM 作为评判者为 AI SQL 天生性能提供了可靠的署理,尤其是作为对结果的快速查抄。
方法和结果

这项研究以 Defog.ai 团队之前的工作为底子,他们开发了一种使用黄金数据集和查询来评估 SQL 查询的方法。该过程包罗使用黄金数据集题目举行 AI SQL 天生,从 AI 天生的 SQL 天生测试结果“x”,在同一数据集上使用预先存在的黄金查询来天生结果“y”,然后比力结果“x”和“y”的精确性。
      

    作者绘制的图表
为了举行此比力,我们起首探索了传统的 SQL 评估方法,比方精确数据匹配。此方法涉及直接比力两个查询的输出数据。比方,在评估有关作者引用的查询时,作者数目或其引用计数的任何差异都会导致不匹配和失败。虽然简朴明了,但此方法无法处理极端情况,比方如何处理零计数箱或数字输出的渺小变化。
      

    作者绘制的图表
然后,我们尝试了一种更过细的方法:使用 LLM 作为裁判员。我们使用此方法举行了初步测试,使用 OpenAI 的 GPT-4 Turbo,而不在评估提示中包罗数据库架构信息,结果令人满足,F1 分数在 0.70 到 0.76 之间。在此设置中,LLM 通过仅查抄题目和结果查询来评判天生的 SQL。
      

    结果:作者提供的图片
在这次测试中,我们留意到有相称多的误报和漏报,其中许多与数据库架构的错误或假设有关。在这个误报案例中,LLM 假设响应的单位与预期不同(学期与天数)。
      

    图片来自作者
这些差异促使我们将数据库模式添加到评估提示中。与我们的预期相反,这导致了更糟糕的性能。然而,当我们改进方法以仅包罗查询中引用的表的模式时,我们看到误报率和误报率都有显著改善。
      

    结果:作者提供的图片
挑衅与将来方向

虽然使用 LLM 评估 SQL 天生的潜力显而易见,但挑衅仍然存在。LLM 通常会对数据结构和关系做出错误的假设,或者错误地假设测量单位或数据格式。找到要包罗在评估提示中的精确数目和类型的架构信息对于优化性能非常重要。
任何探索 SQL 天生用例的人都可能会探索其他几个领域,比方优化模式信息的包罗、提高 LLM 对数据库概念的理解以及开发将 LLM 判定与传统技能相联合的混合评估方法。
结论

凭借捕捉渺小错误的能力,LLM 作为裁判员表现出成为评估 AI 天生的 SQL 查询的快速有用工具的潜力。
仔细选择向 LLM 评委提供的信息有助于充实利用此方法;通过包罗相关的模式细节并不停改进LLM 评估流程,我们可以提高 SQL 天生评估的精确性和可靠性。
随着自然语言与数据库接口的遍及,对有用评估方法的需求只会增长。法学硕士作为评判者的方法虽然并不完善,但比简朴的数据匹配提供了更过细的评估,能够以传统方法无法做到的方式理解上下文和意图。

感谢关注雲闪世界。(亚马逊aws和谷歌GCP服务协助办理云计算及产业相关办理方案)
 订阅频道(https://t.me/awsgoogvps_Host)
 TG交换群(t.me/awsgoogvpsHost)

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

傲渊山岳

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表