ToB企服应用市场:ToB评测及商务社交产业平台

标题: NL2SQL基础系列(1):业界顶尖排行榜、权势巨子测评数据集及LLM大模型(Spider v [打印本页]

作者: 魏晓东    时间: 2024-6-15 01:17
标题: NL2SQL基础系列(1):业界顶尖排行榜、权势巨子测评数据集及LLM大模型(Spider v
NL2SQL基础系列(1):业界顶尖排行榜、权势巨子测评数据集及LLM大模型(Spider vs BIRD)全面临比优劣分析[Text2SQL、Text2DSL]

Text-to-SQL(或者Text2SQL),顾名思义就是把文本转化为SQL语言,更学术一点的界说是:把数据库领域下的自然语言(Natural Language,NL)问题,转化为在关系型数据库中可以执行的布局化询语言(Structured Query Language,SQL),因此Text-to-SQL也可以被简写为NL2SQL。

利用 NL2SQL 的技能方案,用户与数据库之间的距离可以进一步缩短,用户可以更自由地查询更多信息、表达本身更丰富的查询意图,还可以减轻目前技能方案的繁琐,解放开发职员。
1.NL2SQL环境

1.1 NL2SQL的发展汗青

NL2SQL的汗青要追溯到1973年,Woods等人开发了一个名为LUNAR的体系,紧张用来回答从月球带回来的岩石相干的问题。1978年,Hendrix计划了一个名叫LIFER/LADDER的接口,可以通过自然语言查询数据库。但是上面提到的体系都是针对特定数据库开发的,而且只支持单表操作。2008年,Siasar等人基于句法和语义知识的基本概念提出了专家体系,并提出一个可以或许从多个效果中选择一个符合查询语句的算法。2010年,Rao等人提出了一个包含简朴和隐式查询的体系。2013年,Chaudhari利用原型技能实现了一个可以或许处理简朴查询和聚合函数的体系。虽然这些体系可以或许天生不同的查询语句,但依然无法支持多表关联的问题。2014年,Ghosh等人基于Chaudhari的研究结果,在其基础上又开发了一个自动查询天生器,它采用语音或自然语言文本作为输入,支持简朴的嵌套查询和聚合操作,同时体系还可以或许处理那些明确指出的属性。同年,Reinaldha和Widagdo利用了不同的方法来研究用户不同情势的输入,他们采用语义规则来找出问题中出现的词与数据库中的属性之间的关系。2015年,Palakurthi等人提供了与属性类型和分类特性相干的信息,描述了不同属性出现在句子中的处理方式也是不一样的。2016年,Ghosal等人提出了一个体系,可以或许很好地处理多表简朴查询,不外体系利用的数据字典有限。同年,Kaur and J, Jan 强化了体系的简朴查询和毗连操作,但不支持聚合函数、GROUPBY和HAVING等高级子句。Singh and Solanki也提出了一种将自然语言转为sql查询的算法。他们利用动词表、名词表和规则将属性和表映射到句子中的单词,体系还机敏地处理了文本的含糊输入。2017年,Google开发了Analyza体系,一个以自然语言为人机交互的接口的体系,支持用户用自然语言做数据探索与数据分析。该体系已在Google两个产物中投入利用,一是Online Sheet产物的QA问答模块,二是提供了一个库存和收入数据数据库的一个访问入口。同年,Sukthankar, Nandan等人开发了nQuery体系,一个自然语言到SQL的查询天生器,支持聚合函数,以及where子句中的多个条件、高级子句(如order by、group by和having)操作。2018年,Utama, Prasetya等人开发了DBPal工具,一个面向数据库的端到端的自然语言接口。DBPal紧张有两大特性,一是采用深度模型将自然语言语句转为SQL,二是在用户不知道数据库模式和查询特性的环境下,支持短语提问,同时支持用户查询扩展提示,有助于提高查询效果。
1.2 NL2SQL 业内环境

1.2.1 测评指标

Text-to-SQL任务的评价方法紧张包含两种:精确匹配率(Exact Match, Accqm)、执行正确率(Execution Accuracy, Accex)

精确匹配率指,推测得到的SQL语句与标准SQL语句精确匹配成功的问题占比。为了处理由身分顺序带来的匹配错误,当前精确匹配评估将推测的SQL语句和标准SQL语句按着SQL关键词分成多个子句,每个子句中的身分表示为集合,当两个子句对应的集合雷同则两个子句雷同,当两个SQL所有子句雷同则两个SQL精确匹配成功;

执行正确指,执行推测的SQL语句,数据库返回正确答案的问题占比。

1.2.2 业界排行榜


1.3 相干论文综述


2.业内标准数据集介绍

2.1 数据集汇总





2.2 在Spider 和BIRD榜单环境



   Spider 1.0与大多数先前的语义解析任务不同,因为:ATIS、Geo、Academic:它们各自仅包含一个数据库,SQL查询数量有限,且练习和测试集中SQL查询完全雷同。WikiSQL:SQL查询和表的数量明显增多。但所有SQL查询都很简朴,每个数据库仅是单一表,没有外键。Spider 1.0在图中占据最大面积,是首个复杂且跨领域的语义解析和文本到SQL数据集!
  Leaderboard - Execution with Values

Leaderboard - Exact Set Match without Values




案例:


LLM排名:


3.大模型在NL2SQL上对比

基于论文:Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco vs Bard vs ChatGPT - A Text-to-SQL Parsing Comparison (2023.10)效果进行对比
本文对六种语言模型进行了综合评估:Dolly、LLaMA、Vicuna、Guanaco、Bard 和 ChatGPT,利用五种不同的提示计谋,直接比力它们在九个基准数据集上的性能。
我们的紧张发现是:

3.1 提示词计谋


3.2 在Spider和8大传统数据集表现




更多模型的表现:

闭源模型如GPT和BARD在NL2SQL任务中明显优于开源模型,这得益于它们接受了更多的参数练习。通过额外的监视微调,模型性能得到明显提拔,例如Alpaca-7B模型相比其前身Llama-7B改进了近16%,突显了微调对性能加强的潜力。与此同时,较新的开源模型如Mistral-7B和Llama2性能更优,正渐渐缩小与闭源模型的差距。

3.3 大模型在SQL天生效果分析



大型语言模型在天生SQL语句时常表现不佳,大概因为它们难以明确提示背后的真实意图。我们在多个数据集上测试了不同模型,发现除Dolly外,大多数模型在特定提示计谋下能天生90%以上的有用SQL。尽管LLaMA未经指令数据集的微调,它仍能天生有用SQL。然而,开源模型如Vicuna和Dolly在达到高有用SQL百分比方面存在挑衅。值得留意的是,LLaMA通过小样本学习提拔性能,而guanaco则随着示例增多性能下降。别的,某些提示计谋并不抱负,尤其是S3计谋,它明显降低了GPT-3.5在多个数据集上的有用SQL天生率。尽管模型能天生SQL,但语义不准确,导致执行精度低。
   更多分析效果见原始论文
  参考链接


更多优质内容请关注公号:汀丶人工智能;会提供一些相干的资源和优质文章,免费获取阅读。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4