IT评测·应用市场-qidao123.com

标题: 2 Text2SQL 智能报表方案介绍 [打印本页]

作者: 鼠扑    时间: 2025-2-15 03:00
标题: 2 Text2SQL 智能报表方案介绍
0 背景

Text2SQL智能报表方案旨在通过自然语言处置惩罚(NLP)技能,利用户可以或许以自然语言的形式提出问题,并自动天生相应的SQL查询,从而获取所需的数据报表,用户可根据得到结果展示分析从而为结论提供支撑,其次可通过对结果数据与用户问题拆解然后对非常可能存在的问题提供解析。
1 技能框架

智能报表整体架构分为5层,分别为资源配置层、数据存储模块、LLM、智能体开发框架、功能应用。我们要做的就是怎样选型与适配各个层之间的交互,数据与大模子本质决定了功能的天花板。





1.1 Text2SQL

功能:Text-to-SQL(或者Text2SQL,text2Code的子任务),顾名思义就是把文本转化为SQL语言,更学术一点的定义是:把数据库领域下的自然语言(Natural Language,NL)问题,转化为在关系型数据库中可以执行的结构化查询语言(Structured Query Language,SQL),因此Text-to-SQL也可以被简写为NL2SQL。· 输入:自然语言问题,好比“查询表t_user的干系信息,结果按id降序排序,只保留前10个数据 ”· 输出:SQL,好比“SELECT * FROM t_user ORDER BY id DESC LIMIT 10”

优点: Text2SQL 应用主要是资助用户减少开发时间,降低开发本钱。“打破人与结构化数据之间的壁垒”,即普通用户可以通过自然语言形貌完成复杂数据库的查询工作,得到想要的结果。
目标:自然语言查询语句 -> SQL 结构化查询语言;
已知:数据库中的有限表,测试集合《text_question,SQL_answer,My_sql_result》

办理方法: PE + LLM
案例1 表少、简单
一个最基础、最直观的提示工程方案是,输入数据库的 Database Schema,即数据库的基本结构(包罗表名、列名、主外键关系等等),以及用户的问题,提示模子输入该问题对应的 SQL 语句。这种提示范式可以很方便让 LLM 适应各种不同的数据库与对应的用户查询。近期的一些研究表明,(提示词越精确)在输入中,额外增加表和列的文本形貌、小样本示例(即 few-shot Question-SQL pairs)、一定格式形貌的数据样本(即数据库中每一个表的随机几行数据样本)等信息有助于 LLM 更好地明白数据库结构,从而天生更准确的 SQL【好比:RSL-SQL

办理方法2:PE + RAG / KAG +LLM
案例2 :真实的业务场景面对的是多库、多表、多字段,而且存在表字段形貌信息存在语义,在提示中包含完备的数据库信息会导致输入 token 过多,计算本钱增加,更重要的是会引入大量噪音。在天生 SQL 之前,用一些方法提前找到与用户问题干系的表和列,然后,输入给大模子的是被显著简化后的 Database Schema,从而达到减小输入噪音并加强 SQL 天生性能的目的【RAG】。

办理方法3: PE+RAG+SFT+LLM
案例3:存在大量的表、而且已经网络到大量的练习数据;

注意



1.2 大模子

1.2.1 语言大模子(预练习数据库)

目前,基于 LLM 的 Text-to-SQL 主要分为两类技能路线,一类是对一些开源的参数较小的 LLM(如 Deepseek-7B) 进行微调,另一类则是基于闭源的参数较大的 LLM (如 GPT-4、GPT-4o)的提示工程方法。
精度/通用性与模子大小是一个矛盾点,高精度意味着必要跟多的参数(记着全部信息)。怎样落地优选平衡二者之间的关系,可以从下面出发:
1.2.2 开源大模子选择

text2SQL : 目标:具备coder、function calling 能力;
本地部署会占用大量内存,下面是目前几个开源大模子。当然假如必要再进行微调,那么必要更多的内存,好比选择Adam优化器,必要额外3倍的模子大小内存,共计4倍(好比deepSeek V2,必要16 * 4 = 64G)
常见底座模子概览:(深度求索、智谱、零壹万物、阿里)

大模子下载地址:
1.2.3 嵌入大模子

目标:为了RAG提供理论模子支持(多维度1024,英文+中文),提前找到与用户问题干系的表和列;
  1. BAAI/bge-large-zh-v1.5
复制代码

未来主要技能工作内容:
1.3 数据分析与报表





1.4 明白目标

功能1 为用户提供参考SQL语句;
功能2 执行SQL代码;
功能3 为前端提供图(图片),还是为前端提供具体执行代码等等;
2 成熟的产品

[table][tr] 名称
  简介
  特性
  文章来源
  Star
  缺点
[/tr][tr][td] Chat2DB (阿里开源 Chat2DB :一款多数据库客户端工具!
[/td][td] Chat2DB 是一个功能强大的 SQL 客户端和数据分析工具,支持对话式数据分析,可以或许辅助天生 SQL。它提供网页和客户端两种利用方式,支持几乎全部流行的数据库,而且开源了7B的SQL模子。
[/td][td] SQL天生、智能陈诉、数据探索
[/td][td] https://www.zhihu.com/search?type=content&q=%E9%98%BF%E9%87%8C%E5%BC%80%E6%BA%90%20Chat2DB%20
github:
GitHub - CodePhiliaX/Chat2DB:




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4