【论文速读】| TCSR-SQL：面向表内容感知的自检索文本到SQL方法 ...

大连密封材料 · 2024-7-19 12:01:36

本次分享论文：TCSR-SQL: Towards Table Content-aware Text-to-SQL with Self-retrieval
基本信息

原文作者：Wenbo Xu, Liang Yan, Peiyi Han, Haifeng Zhu, Chuanyi Liu, Shaoming Duan, Cuiyun Gao, Yingwei Liang
作者单位：哈尔滨工业大学（深圳）、鹏城实验室、广东电网公司
关键词：Text-to-SQL，表内容感知，自检索，LLM
原文链接：https://arxiv.org/pdf/2407.01183
开源代码：
https://github.com/TCSR-SQL/TCSR-SQL
论文要点

论文简介：大语言模型（LLM）在文本到SQL（Text-to-SQL）方法中取得了紧张希望，但在面临真实世界场景中的表内容感知问题时，现有方法在处理问题中模糊数据内容关键词和不存在的数据库模式列名时表现不佳。
为了办理这一问题，本文提出了一种面向表内容感知的自检索文本到SQL（TCSR-SQL）方法。该方法利用LLM的上下文学习本领，从问题中提取数据内容关键词并推断可能相干的数据库模式，通过模糊搜索数据库生成初始SQL，并在多轮生成-实行-修正过程中不断优化，终极生成精确的SQL。本文还引入了一个包含1692个问题-SQL对的数据集，以验证该方法的有用性。实验结果表明，TCSR-SQL在实行准确率上相比现有方法至少提高了13.7%。
研究目的：本文的研究目的是办理当前LLM在生成对应于表内容感知的自然语言问题的SQL查询时面临的两个主要困难：一是如何辨认自然语言问题中的数据内容关键词所对应的数据库模式列名；二是如安在自然语言问题中的不精确数据内容关键词的基础上，辨认数据库中存储的精确内容值。通过引入自检索技能，本文提出了一个创新的方法来处理这一问题，旨在提高生成SQL查询的准确性。
研究贡献：

提出了一种新颖的TCSR-SQL方法，利用自检索技能办理了生成对应表内容感知自然语言问题的SQL查扣问题。
创建了一个包含1692个问题-SQL对的新数据集，用于评估该方法的有用性。
实验结果表明，TCSR-SQL在实行准确率上相比现有开始进的方法提高了13.7%。

引言

随着大语言模型（LLM）技能的快速发展，基于LLM的文本到SQL（Text-to-SQL）方法在生成SQL查询方面取得了紧张希望。然而，现有方法在处理真实世界中的表内容感知问题时，仍然面临一些挑战。比方，当问题中包含模糊的数据内容关键词和不存在的数据库模式列名时，现有方法的表现每每不尽如人意。
为了办理这些问题，本文提出了一种面向表内容感知的自检索文本到SQL（TCSR-SQL）方法。该方法利用LLM的上下文学习本领，从问题中提取数据内容关键词并推断可能相干的数据库模式，通过模糊搜索数据库生成初始SQL，并在多轮生成-实行-修正过程中不断优化，终极生成精确的SQL。
具体来说，TCSR-SQL包罗三个主要模块：关键词提取与模糊检测、知识检索与对齐、SQL生成与修正。关键词提取与模糊检测模块从自然语言问题中提取数据内容关键词，并通过模糊检测技能搜索数据库中的相干内容值。知识检索与对齐模块则利用检索到的编码知识确认SQL查询中的列名和条件值。末了，SQL生成与修正模块生成开端的SQL查询，并根据实行结果进行修正，直至生成终极的精确SQL。
相干工作

现在，最新的Text-to-SQL研究主要关注如何利用大语言模型（LLM）来完成这一任务。基于LLM的Text-to-SQL方法大致可以分为两类：基于数据库模式的方法和基于数据内容的方法。
1. 基于数据库模式的方法
· 提示工程方法：比方，C3-SQL设计了一种零样本提示技能，通过将Text-to-SQL任务分解为两个子任务：模式链接和SQL生成。DIN-SQL设计了多轮少样本提示策略，将Text-to-SQL任务分解为四个子任务：模式链接、分类与分解、SQL生成和自我修正。
· 微调方法：随着LLM技能的快速迭代和开源LLM模型的大规模出现，一些研究致力于通过微调技能将通用LLM练习为Text-to-SQL领域的特定LLM。
2. 基于数据内容的方法
· 仅使用LLM的方法：一些方法直接在提示工程和微调方法的基础上增加了几个数据内容样本。比方，SQLPrompt在输入提示中增加了相干的数据库内容值。CodeS在设计的数据库提示构建会话中引入了数据内容样本，以微调开源LLM模型StarCoder。
· 基于署理的方法：一些研究探索了署理方法在Text-to-SQL领域的可能性。比方，SQL-CRAFT引入了SQL查询实行的反馈信息，以指导LLM修正其生成的SQL查询。
尽管这些方法提供了数据内容样本，但它们仍然无法直接使用数据库中存储的精确内容值作为生成SQL查询的条件值。因此，本文提出了一种自检索技能，将数据库内容明白与SQL生成-实行-修正过程相结合，以办理这一问题。
TCSR-SQL

如引言部分所述，现有的基于LLM的Text-to-SQL方法在根据大数据库的表内容感知自然语言问题生成SQL查询时面临两大困难：一是辨认自然语言问题中的数据内容关键词所对应的数据库模式列名，二是辨认数据库中存储的精确内容值。

为了办理这些问题，本文提出了TCSR-SQL方法，包含三个模块：
1. 关键词提取与模糊检测模块：从自然语言问题中提取数据内容关键词，并通过模糊检测技能搜索数据库中的相干内容值。
2. 知识检索与对齐模块：利用模糊检测模块的搜索结果确认SQL查询中的列名和条件值。
3. SQL生成与修正模块：生成开端的SQL查询，并根据实行结果进行修正，直至生成终极的精确SQL。
研究评估

实验设置：为了评估TCSR-SQL方法的有用性，本文创建了一个包含1692个问题-SQL对的基准数据集（TCD）。该数据集从多个Spider变体数据集和实际数据库中提取，涵盖了真实世界中的表内容感知问题。评估指标包罗实行准确率（EX）和精确匹配准确率（EM），前者比较猜测SQL查询和金尺度SQL查询的实行输出，后者比较猜测SQL查询和金尺度SQL查询的各个部分。实验使用GPT-3.5-turbo模型，并采用Dmeta-embedding算法进行相似度计算。
整体结果：实验结果表明，TCSR-SQL在实行准确率（EX）和精确匹配准确率（EM）方面均显著优于现有开始进的方法。具体而言，TCSR-SQL在EX和EM上分别到达了75.0%和48.2%，相比最佳现有方法至少提高了13.7%。这得益于关键词提取与模糊检测、知识检索与对齐、SQL生成与修正三个模块的协同工作。通过多轮生成-实行-修正过程，TCSR-SQL可以或许更准确地生成对应表内容感知的SQL查询，有用应对真实世界中的复杂查询任务。
消融实验：通过消融实验评估了TCSR-SQL各模块对整体性能的影响。结果显示，去除关键词提取与模糊检测模块后，实行准确率（EX）降落了7.6%；去除知识检索与对齐模块后，EX降落了9.3%；去除SQL修正模块后，EX降落了6.4%。这些结果表明，每个模块对提高SQL生成准确性都起到了紧张作用。特别是知识检索与对齐模块，通过整合编码知识，显著提升了SQL查询条件的精确性，而SQL修正模块通过实行反馈进一步优化了终极的SQL查询。

案例研究：为了深入了解TCSR-SQL的工作原理，研究者进行了案例研究。研究表明，现有方法在生成SQL查询时常常无法正确辨认数据内容关键词和条件值，导致查询结果为空或错误。相比之下，TCSR-SQL通过关键词提取与模糊检测模块有用地提取问题中的数据内容关键词，并利用知识检索与对齐模块确认数据库中的精确存储值。终极，SQL生成与修正模块生成准确的SQL查询，避免了常见错误。比方，在处理一个关于GDP增长率的问题时，TCSR-SQL成功生成了正确的SQL查询，而其他方法均未能正确实行。
论文结论

本文提出的TCSR-SQL方法，通过引入自检索技能，显著提升了生成对应表内容感知自然语言问题的SQL查询的准确性。实验结果表明，TCSR-SQL在实行准确率和精确匹配准确率方面均显著优于现有开始进的方法。具体来说，TCSR-SQL利用关键词提取与模糊检测、知识检索与对齐、SQL生成与修正三个模块，办理了在大数据库中生成准确SQL查询的关键挑战。通过创建一个包含1692个问题-SQL对的新数据集，研究者验证了该方法的有用性，证明白其在处理复杂查询任务中的精良性能。总之，TCSR-SQL为Text-to-SQL领域提供了一个创新且高效的办理方案。
原作者：论文解读智能体
校对：小椰风

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【论文速读】| TCSR-SQL：面向表内容感知的自检索文本到SQL方法 ...

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块