QAnything:网易开源本地知识库问答系统
今天先容一个基于本地知识库的问答系统 QAnything,有网易开源,同时也提供 SaaS 在线服务,有一定免费额度。特点是界面友好,简单易用,知识库管理和问答之外,也提供了 Agent、速读、AI写手等本领。文章重要内容:
[*] • QAnything概述
[*] • 架构和特点
[*] • 开源和商业利用
[*] • 用户界面及功能示例
[*] • 本地安装
[*] • SaaS 服务价格
[*] • 相关工具保举
QAnything概述
https://img-blog.csdnimg.cn/img_convert/b4c406498b96b518dec92e3ef73426ae.png
什么是QAnything?
Question and Answer based on Anything(QAnything) 是一个本地知识库问答系统,旨在支持各种文件格式和数据库,答应离线安装和利用。用户只需将任何本地存储的任何格式的文件拖放到系统中,即可得到准确、快速和可靠的答案。
目前支持的格式包括(其实我们一般也不关心这块,支持常见的PDF\Word\文本即可,其他格式RAG效果也不好,不兼容的轻微转换下格式即可):
[*] • PDF(pdf)
[*] • Word(docx)
[*] • PPT(pptx)
[*] • Markdown(md)
[*] • Eml(eml)
[*] • TXT(txt)
[*] • XLS(xlsx)
[*] • CSV(csv)
[*] • 图像(jpg,jpeg,png)
[*] • 网页链接(html)
重要特点:
[*] • 数据安全,支持在整个过程中插拔网线的安装和利用。
[*] • 跨语言问答支持,可以自由切换中英文问答,不受文档语言的限制。
[*] • 支持海量数据问答,两阶段向量排序,办理了大规模数据检索的性能下降问题;数据量越大,性能越好。
[*] • 支持雷同Kimi的快速开始模式,无文件谈天模式,仅检索模式,自界说Bot模式。
架构
https://img-blog.csdnimg.cn/img_convert/be67160b0cbb5c818d606bb38e1ef9a3.png
为什么利用两阶段检索
知识库数据量大的场景下两阶段优势非常明显,如果只用一阶段embedding检索, 随着数据量增大会出现检索退化的问题,如下图中绿线所示, 二阶段rerank重排后能实现准确率稳固增长,即数据越多,效果越好。
https://img-blog.csdnimg.cn/img_convert/c7eba69e4bc06d36f19af04f04b810d5.png
开源和生产利用
QAnything的开源版本基于QwenLM,已在大量专业问答数据集上举行了优化。它极大地增强了问答本领。如果需要用于商业目的, 请遵循QwenLM的允许协议。用户在Linux系统上利用QAnything时, 需要满足一定的先决条件,如NVIDIA GPU内存>= 4GB等。
友好的用户界面
QAnything的用户界面计划友好且易于利用,无需繁琐的配置。用户可以轻松选择多个知识库举行问答,满足不同需求。
我下面利用 SaaS 版本做展示,大家有爱好的可以本地摆设。
知识库问答
登录之后界面非常轻巧,不需要文档都可以直接利用:
https://img-blog.csdnimg.cn/img_convert/84d175c63bc157c55de9b861d567cba0.png
填入知识库名称,点击「新建」,拖入本地知识库的文档(可以是PDF、Docx等),然后点击确定即可。
https://img-blog.csdnimg.cn/img_convert/81fb3dd16bd290b2b572382d2c0215f7.png
我这里上传了一个色彩计划的文档,然后快速举行提问,回答速率和效果都不错,末尾还会给出数据来源。
https://img-blog.csdnimg.cn/img_convert/e46019da18b1dda42218faf18e1dff5f.png
再问一个其他问题:
简单的利用和设置由于利用简单,我们可以的设置项也非常有限,只有戋戋几个设置项:
[*] • 大模型的选择
[*] • 回复上限(默认是 512 Token,最多 1024 Token)
[*] • 是否利用混合检索
Agent
别的 QAnything 也提供了一个自界说 Agent 的功能,可以快速创建自己的知识库问答系统。
https://img-blog.csdnimg.cn/img_convert/03b0d98f5d6f1bcbda47727fa766d36b.png
Agent 就是你给他设置一个脚色,也就是我们常常提到的 System Prompt。系统提示语 我们一般设置如下内容:
[*] • 脚色界说,好比:你是一个聪明的研究助理。
[*] • 使命的描述。好比:请回答用户关于产物的常见问题。
[*] • 上下文信息。好比:用户正在查找有关2024年新产物的信息。
[*] • 语言风格和语气。好比:利用专业术语,保持正式语气。
[*] • 回答示例或格式。你渴望呆板人能够回答的内容格式,这里可以利用少样本提示,或者直接指定格式。
[*] • 限制和注意事项。告诉呆板人哪些能说,哪些不能说。
然后选择知识库(可以选择多个):
https://img-blog.csdnimg.cn/img_convert/47ee3c7ee3997b17408024cb5123e0ce.png
值得一提的是:除了常规的直接利用 Agent 对话,QAnything 还提供了发布功能,
https://img-blog.csdnimg.cn/img_convert/313411c99e774a06123697b7fd1f5588.png
可以快速嵌入到网页中,好比我们把这个色彩计划的呆板人放到知识图谱中:
https://img-blog.csdnimg.cn/img_convert/f1c3fdd2f083b4234fc8d8aa09616e54.png
我只是做一个示例,一般来说我们嵌入到文档相关的网页中更为合适, 或者为每个知识图谱定制一个专属知识库和 Agent,这样的话才让知识文档更有实际意义。
关于知识库图谱和知识库大部分时候,我们构建知识图谱更偏向于从知识库中提取信息,这样的场景适合你有了知识库的场景,这种方式更适合问答系统。同时也可以把图谱的本领嵌入到原有的很多系统中。别的一种图谱的构建方式是,专有的更偏向布局化的数据,好比我上面截图展示的知识图谱,他没有很多的文本数据, 所以也不太适合这种基于RAG的数据问答。更适合基于图的数据问答
速读
速读功能我以为比力鸡肋,就是上传文件帮你总结,实验下来比起 Kimi 等大模型来说效果差了不少。
先上传文件,系统会举行剖析,剖析的速读说真话有点儿慢(和其他大模型文档解读相比)。
https://img-blog.csdnimg.cn/img_convert/fec47a0e94029db2c99baecc220e3ad0.png
剖析完成,就会左边原文,右边速读 的情势来呈现。鼠标放在原文或速读上可以检察对应的信息。
https://img-blog.csdnimg.cn/img_convert/2f1410cba66e3ed1eb257a52b3a949de.png
AI 写手
QAnything 也提供了一个 AI 写手的功能,可以让用户通过 QAnything 来写文章。
https://img-blog.csdnimg.cn/img_convert/d03dd77edde40e9eb7182dee80f1597d.png
利用起来也很简单,重要提供了下面本领:
[*] • 写文章时可以绑定知识库
[*] • 可以手写大纲,也可以指定大纲
如果是自动天生大纲,可以对天生的大纲举行调整:
https://img-blog.csdnimg.cn/img_convert/c300f60b1ded53e3ace02575b8e5c9ed.png
然后就可以点击天生文章了:
https://img-blog.csdnimg.cn/img_convert/e0a04616d22b028327aaa4a3aa9cf06d.png
利用下来,如果是知识库内容很多,下过会好一点。如果知识库内容不多,会天生超等多的重复内容。
安装和摆设
安装QAnything系统需要一些基本的Linux系统下令。首先,需要安装NVIDIA驱动,可以通过以下下令来检查驱动版本:
nvidia-smi | grep Version
接着,安装Docker,通过以下下令来检查Docker版本:
docker --version
安装Docker Composer,检查 Docker Composer版本:
docker-compose --version
最后,安装必要的Linux系统下令,可以通过以下下令完成:
sudo apt-get update sudo apt-get install git-lfs unzip jq bc
在完成以上步调后,用户可以拉取QAnything代码库并运行服务器。具体利用如下:
git clone it@gitlab.corp.youdao.com:ai/qanything.git cd QAnything bash run.sh # 用默认参数启动服务
用户可以通过以上步调举行一键安装和摆设QAnything系统,并举行服务参数设置。
系统要求
QAnything系统的运行需要符合一定的系统要求。对于Linux系统,需要满足以下最低配置:
[*] • 利用系统:Linux amd64
[*] • NVIDIA显卡内存:至少4GB(利用OpenAI API)
[*] • NVIDIA驱动版本:不低于525.105.17
[*] • Docker版本:不低于20.10.5
[*] • Docker Compose版本:不低于2.23.3
用户可以通过以下步调来安装必要的组件:
[*]1. 安装NVIDIA驱动:
[*]• 运行下令nvidia-smi | grep Version
来检查驱动版本
[*]1. 安装Docker:
[*]• 运行下令docker --version
来检查Docker版本
[*]1. 安装Docker Compose:
[*]• 运行下令docker-compose --version
来检查Docker Compose版本
SaaS 服务
最后看一下 SaaS 服务,如果自用和拿来测试的话,可以直接用一下免费的云服务:
[*] • 支持两百万的训练语料库
[*] • 500万的赠送积分
[*] • 知识库 30 天不用的话会被自动清除
https://img-blog.csdnimg.cn/img_convert/e6d6d5d1357c408277d1064e654192f7.png
最后
再回顾一下 QAnything 的优势,界面轻巧、用户友好,提供了专门的微调模型,但是支持的模型和配置扩展本领比力少, 属于开箱即用,不需要也不太容易折腾的工具。
怎样学习AI大模型?
我在一线互联网企业工作十余年里,引导过不少同行后辈。资助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的本领和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的环境下还是对峙各种整理和分享。但苦于知识流传途径有限,很多互联网行业朋友无法得到正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习册本手册、视频教程、实战学习等录播视频免费分享出来。
读者福利:如果大家对大模型感爱好,这套大模型学习资料一定对你有效
对于0底子小白入门:
如果你是零底子小白,想快速入门大模型是可以思量的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、呆板学习、大模型册本PDF。带你从零底子系统性的学好大模型!
页:
[1]