Vanna：用检索增强生成（RAG）技能革新天然语言转SQL - IT评测·应用市场-qidao123.com技术社区

数据库模式（DDL）：存储表布局、字段类型、外键关系。

vn.train(ddl="CREATE TABLE sales (id INT, product_id INT, amount FLOAT, date TIMESTAMP)")

复制代码

[/code]
[*] [b]业务规则文档[/b]：定义关键指标（如“贩卖额 = SUM(amount)”）。
[code]vn.train(documentation="销售额是指销售表中 amount 列的总和")

复制代码

[/code]
[*] [b]汗青查询缓存[/b]：存储已验证的 SQL 及其天然语言问题，形成 QA 对。
[/list] 这些数据会被[b]向量化[/b]并存入向量数据库（如 Chroma、FAISS），供后续检索使用。
[size=3][b]（2）推理阶段：动态生成SQL[/b][/size]
当用户提问时（如 [i]“2023年贩卖额最高的产品是什么？”[/i]），Vanna 执行以下步骤：
[list=1]
[*] [b]检索相关上下文[/b]
[list]
[*] 使用向量搜索召回：
[list]
[*] 相关表布局（sales 表、products 表）
[*] 业务规则（“贩卖额 = SUM(amount)”）
[*] 类似的汗青查询（SELECT product, SUM(amount) FROM sales GROUP BY product）
[/list]
[/list]
[*] [b]组装Prompt，输入LLM[/b]
[code]你是一个SQL专家。根据以下信息生成查询：
### 数据库结构：
- sales(id INT, product_id INT, amount FLOAT, date TIMESTAMP)
- products(id INT, name VARCHAR)
### 业务规则：
- 销售额 = SUM(amount)
### 类似查询：
- "各产品销售额" → SELECT name, SUM(amount) FROM sales JOIN products ON sales.product_id = products.id GROUP BY name
### 问题：
2023年销售额最高的产品是什么？

复制代码

[/code]
[*] [b]生成并优化SQL[/b]
LLM 返回：
[code]SELECT p.name, SUM(s.amount)
FROM sales s JOIN products p ON s.product_id = p.id
WHERE YEAR(s.date) = 2023
GROUP BY p.name
ORDER BY SUM(s.amount) DESC
LIMIT 1

复制代码

[/code]
[*] [b]执行或人工考核[/b]
[list]
[*] 可自动执行并返回结果，或由数据团队验证后修正。
[*] 修正后的 SQL 会反馈到训练库，使模子持续改进。
[/list]
[/list]
[size=4]Vanna的工作原理[/size]
Vanna通过两个简单步骤工作：在你的数据上训练一个RAG“模子”，然后提出问题，返回可自动在数据库上运行的SQL查询。
[list=1]
[*][b]对你的数据训练一个RAG“模子”。[/b]
[*][b]提问。[/b]
[/list]
[align=center][img]https://i-blog.csdnimg.cn/direct/536b60a30e8f44e095837efd02099375.png[/img][/align]
[hr] [size=4][b]2. Vanna vs. 纯LLM：为什么更可靠？[/b][/size]
[table][tr][b]对比维度[/b][b]纯LLM（如ChatGPT）[/b][b]Vanna + RAG[/b][/tr][tr][td][b]范畴知识[/b][/td][td]通用知识，可能不了解你的数据库[/td][td]动态注入表布局、业务规则[/td][/tr][tr][td][b]准确性[/b][/td][td]复杂查询错误率高[/td][td]检索增强减少幻觉，实测提升30-50%[/td][/tr][tr][td][b]可解释性[/b][/td][td]黑箱生成，难以调试[/td][td]可查看检索到的上下文，定位问题[/td][/tr][tr][td][b]持续学习[/b][/td][td]静态模子，无法优化[/td][td]用户反馈闭环，越用越准[/td][/tr][/table] [b]典范案例[/b]：
[list]
[*] [b]纯LLM[/b]：提问“计算客户留存率”可能生成错误的 JOIN 逻辑。
[*] [b]Vanna[/b]：检索业务定义后，生成精确的 SQL（如使用日期差计算留存）。
[/list] [hr] [size=4][b]3. 怎样快速集成Vanna？[/b][/size]
[size=3][b]（1）安装与初始化[/b][/size]
[code]pip install vanna
from vanna.llm.openai import OpenAI_Chat
from vanna.vannadb import VannaDB
vn = Vanna(model=OpenAI_Chat(), db_engine=your_db_connection)

复制代码

[/code] [size=3][b]（2）训练模子[/b][/size]
[code]# 注入DDL
vn.train(ddl="CREATE TABLE products (id INT, name VARCHAR, price FLOAT)")
# 添加业务文档
vn.train(documentation="高价值产品指价格超过1000元的商品")
# 录入历史SQL
vn.train(
question="哪些是高价值产品？",
sql="SELECT name FROM products WHERE price > 1000"
)

复制代码

[/code] [size=3][b]（3）生成SQL[/b][/size]
[code]question = "2023年最畅销的高价值产品是什么？"
sql = vn.generate_sql(question)
print(sql)

复制代码

[/code] [size=3][b]（4）部署为API[/b][/size]
Vanna 提供 Flask 快速部署：
[code]from vanna.flask import VannaFlaskApp
app = VannaFlaskApp(vn)
app.run()

复制代码

[code][/code]

4. 未来展望

Vanna 的潜力不仅限于 SQL 生成：

BI 工具增强：为 Tableau/Power BI 提供天然语言查询接口。
自动化数据探查：通过对话式分析发现数据趋势。
多模态扩展：联合文本和图表，实现更智能的数据交互。

结论

Vanna 通过 RAG + 反馈学习，将 LLM 变成了一个“懂你业务”的 SQL 助手。它特殊得当：

数据分析团队：减少重复的 SQL 编写工作。
非技能用户：通过天然语言查询数据库。
数据平台开发者：快速构建智能查询接口。

项目已开源（Apache 2.0），支持 Snowflake、BigQuery、PostgreSQL 等主流数据库，立即试用：GitHub - vanna-ai/vanna

欢迎光临 IT评测·应用市场-qidao123.com技术社区 (https://dis.qidao123.com/) Powered by Discuz! X3.4