IT评测·应用市场-qidao123.com

标题: 【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql天生框架 [打印本页]

作者: 风雨同行    时间: 2025-1-24 10:39
标题: 【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql天生框架

简介

Vanna是基于检索增强(RAG)的sql天生框架
Vanna 使用一种称为 LLM(大型语言模型)的天生式人工智能。简而言之,这些模型是在大量数据(包罗一堆在线可用的 SQL 查询)上举行训练的,并通过猜测相应提示中最有大概的下一个单词或“标志”来工作。Vanna 优化了提示(通过向量数据库使用嵌入搜索)并微调 LLM 模型以天生更好的 SQL。Vanna 可以使用和试验很多差别的LLM,以获得最正确的效果。
Vanna借助了相对简朴也更易理解的RAG方法,通过检索增强来构建Prompt,以提高SQL天生的正确率。从本质上讲,Vanna 是一个 Python 包,它使用检索增强来帮助您使用 LLM 为数据库天生正确的 SQL 查询。

事先用向量数据库将待查询数据库的建表语句、文档、常用SQL及其自然语言查询标题存储起来。在用户发起查询哀求时,会先从向量数据库中检索出相关的建表语句、文档、SQL问答对放入到prompt里(DDL和文档作为上下文、SQL问答对作为few-shot样例),LLM根据prompt天生查询SQL并执行,框架会进一步将查询效果使用plotly可视化出来或用LLM天生后续标题。假如用户反馈LLM天生的效果是正确的,可以将这一问答对存储到向量数据库,可以使得以后的天生效果更正确。
上风


劣势


Vanna的关键原理

借助数据库的DDL语句、元数据(数据库内关于自身数据的形貌信息)、相关文档说明、参考样例SQL等训练一个RAG的“模型”(embedding+向量库);
并在收到用户自然语言形貌的标题时,从RAG模型中通过语义检索出相关的内容,进而组装进入Prompt,然后交给LLM天生SQL。
Vanna 的工作过程分为两个简朴步骤 :

具体步骤包罗:
训练:根据您的数据训练 RAG“模型”,大概说根据数据布局构建向量库。用户可以使用 DDL 语句、文档或样例 SQL 查询对 Vanna 举行训练,让它掌握数据库的布局、业务术语和查询模式。Vanna 会将训练数据转化为向量嵌入,存储在向量数据库中,并建立元数据索引,以便于后续检索。
问标题:问Vanna关于数据的各种标题,如"上个月销量最大的5个商品"
检索:Vanna对标题的处理与其他RAG系统一样,检索对应的DDL 语句、文档或样例 SQL。
天生 SQL: Vanna 使用LLM(比方 GPT-4),联合上下文信息,将自然语言标题转化为精准的 SQL 查询语句。
执行 & 展示:数据库收到 Vanna 天生的 SQL 查询后,就会执行查询。Vanna 会将查询效果整理成易于理解的格式,比方表格或图表,呈现给用户。
训练

Vanna的RAG模型训练,支持以下几种方式:
1. DDL语句
DDL有助于Vanna相识你的数据库表布局信息。
  1. vn.train(ddl="""
  2.     CREATE TABLE IF NOT EXISTS my-table (
  3.         id INT PRIMARY KEY,
  4.         name VARCHAR(100),
  5.         age INT
  6.     )
  7. """)
复制代码
2. 文档内容
可以是你的企业、应用、数据库相关的任何文档内容,只要有助于Vanna正确天生SQL即可,比如对你行业特有名词的解释、特别指标的计算方式等。
  1. vn.train(documentation="Our business defines XYZ as ABC")
复制代码
3. SQL大概SQL问答对
即SQL的样例,这显然有助于大模型学习针对您数据库的知识,特别是有助于理解提出标题的上下文,可以大大提高sql天生正确性。
  1. vn.train(question="What is the average age of our customers?",sql="SELECT AVG(age) FROM customers")
复制代码
4. 训练计划(plan)
这是vanna提供的一种针对大型数据库自动训练的简易方法。借助RDBMS自己的数据库内元数据信息来训练RAG model,从而相识到库内的表布局、列名、关系、备注等有用信息。
  1. df_information_schema=vn.run_sql("SELECT * FROM INFORMATION_SCHEMA.COLUMNS")
  2. plan=vn.get_training_plan_generic(df_information_schema)
  3. vn.train(plan=plan)
复制代码
提问

  1. vn.ask("What are the top 10 customers by sales?")
复制代码
你会得到 SQL
  1. SELECT c.c_name as customer_name,
  2.        sum(l.l_extendedprice * (1 - l.l_discount)) as total_sales
  3. FROM snowflake_sample_data.tpch_sf1.lineitem l join snowflake_sample_data.tpch_sf1.orders o
  4.        ON l.l_orderkey = o.o_orderkey join snowflake_sample_data.tpch_sf1.customer c
  5.        ON o.o_custkey = c.c_custkey
  6. GROUP BY customer_name
  7. ORDER BY total_sales desc limit 10;
复制代码
假如已毗连到数据库,将获得类似以下内容的查询效果:

也可以通过Plotly chart举行画图:

Vanna三个重要底子设施



配置LLM和向量数据库

默认情况下,Vanna支持使用其在线LLM服务(对接OpenAI)与向量库,可以无需对这两个举行任何设置,即可使用。因此使用Vanna最简朴的原型只必要五行代码:
  1. import vanna from vanna.remote
  2. import VannaDefault
  3. vn = VannaDefault(model='model_name', api_key='api_key')
  4. vn.connect_to_sqlite('https://vanna.ai/Chinook.sqlite')
  5. vn.ask("What are the top 10 albums by sales?")
复制代码
这里的OpenAI_Chat和ChromaDB_VectorStore是Vanna已经内置支持的LLM和VectorDB。
假如你必要支持非内置支持的LLM和vectorDB,则必要首先扩展出自己的LLM类与VectorDB类,
实现必要的方法(具体可参考官方文档),然后再扩展出自己的Vanna对象。

参考文献

[1] How accurate can AI generate SQL? (vanna.ai)
[2] https://github.com/vanna-ai/vanna
[3] https://vanna.ai/docs
[3] Vanna-ai: 当地部署OpenAI兼容大模型及向量数据库
[4] Vanna-ai :基于RAG的TextToSql实现方案
[5] Vanna 用 RAG的方法做Text2SQL系统

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 IT评测·应用市场-qidao123.com (https://dis.qidao123.com/) Powered by Discuz! X3.4