论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
人工智能
›
人工智能
›
【RAG检索加强生成】MaxKB:构建企业级知识库问答体系( ...
【RAG检索加强生成】MaxKB:构建企业级知识库问答体系(Ollama+Qwen2) ...
立山
金牌会员
|
2024-8-29 19:28:56
|
显示全部楼层
|
阅读模式
楼主
主题
697
|
帖子
697
|
积分
2091
弁言
我们生活在一个信息爆炸的时代,数据的增长速率前所未有,企业每天产生的数据量呈指数级增长。这些数据中蕴含着巨大的价值,但同时也带来了前所未有的挑战:如何从海量的数据中快速提取有价值的信息,转化为企业的竞争优势?传统的数据处理方法已经无法满意现代企业的需求,企业迫切需要一种更高效、更智能的解决方案。
在这样的配景下,MaxKB应运而生。MaxKB,即Max Knowledge Base,是一款基于LLM(Large Language Model)大语言模子的知识库问答体系。它利用最新的人工智能技术,特殊是天然语言处理(NLP)和呆板学习,为企业提供了一种全新的信息处理和利用方式。
1、MaxKB概述
1.1 界说与目的
MaxKB,全称Max Knowledge Base,是一个开源的AI知识库问答体系。它的目的是成为企业的"最强盛脑",通过集成大型语言模子,提供快速、正确的问答服务。
1.2 特点与优势
开箱即用
:支持直接上传文档、自动爬取在线文档,支持文本自动拆分、向量化、RAG(检索加强生成),智能问答交互体验好;
无缝嵌入
:支持零编码快速嵌入到第三方业务体系;
多模子支持
:支持对接主流的大模子,包括 Ollama 本地私有大模子(如 Meta Llama 3、qwen 等)、通义千问、OpenAI、Azure OpenAI、Kimi、智谱 AI、讯飞星火和百度千帆大模子等。
2、MaxKB原理
知识库构建
MaxKB通过构建知识库,将企业内部的文档、资料等信息进行布局化存储,便于后续的检索和分析。
问答机制
利用LLM大语言模子,MaxKB能够理解用户的查询意图,并从知识库中检索出最相干的答案。
3、MaxKB架构
技术栈
前端:Vue.js
后端:Python / Django
工作流引擎:LangChain
向量数据库:PostgreSQL / pgvector
大模子支持:Azure OpenAI、OpenAI、百度千帆等
体系组件
:MaxKB由多个组件构成,包括文档上传、自动爬虫、文本处理、问答引擎等,共同协作完成知识库的构建和问答服务。
文档处理
:支持多种格式的文档上传,自动进行文本拆分和向量化处理。
智能问答
:提供智能问答交互,根据用户查询,快速从知识库中检索答案。
业务体系集成
:支持与第三方业务体系的集成,无需编码即可实现智能问答功能。
4、基于MaxKB+Ollama+Qwen2搭建本地知识库
4.1 情况准备
确保体系满意MaxKB的运行条件,包括操作体系、数据库、Python情况等。
操作体系
:Ubuntu 22.04 / CentOS 7 64 位体系;
CPU/内存
: 保举 2C/4GB 以上;
磁盘空间
:100GB;
欣赏器要求
:请使用 Chrome、FireFox、Safari、Edge等现代欣赏器;
可访问互联网。
4.2 部署MaxKB
通过Docker快速部署MaxKB,执行以下命令即可启动服务:
docker run -d --name=maxkb -p 8080:8080 -v ~/.maxkb:/var/lib/postgresql/data cr2.fit2cloud.com/1panel/maxkb
复制代码
安装乐成后,可通过欣赏器访问 MaxKB:
http://目的服务器 IP 地址:目的端口
默认登录信息
用户名:admin 默认密码:MaxKB@123…
4.3 部署Ollama
Ollama支持多种安装方式,包括通过包管理器、Docker或从源代码编译。
对于Linux用户,可以使用如下命令进行安装:
curl -fsSL https://ollama.com/install.sh | sh
复制代码
查看模子列表
:
ollama list
复制代码
查看版本
:
查看 Ollama 版本
ollama -v
复制代码
启动服务
:
ollama serve
复制代码
4.4 部署运行qwen2
Ollama支持许多模子,可以在https://ollama.com/library查看
使用以下命令部署运行模子:
ollama run qwen2
复制代码
4.5 知识库配置
4.5.1登录 MaxKB 体系
使用欣赏器打开服务地址:http://目的服务器IP地址:目的端口。
默认的登录信息:
用户名:admin 默认密码:MaxKB@123…
打开【知识库】页面,点击【创建知识库】,进入创建知识库页面。 输入知识库名称、知识库形貌、选择通用型知识库范例。
然后将离线文档通过拖拽方式或选择文件上传方式进行上传。
4.5.2上传文档
上传文档要求:
1)支持文本文件格式为:Markdown、TXT、PDF、DOCX、HTML;
2)支持 QA 问答对格式为:Excel、CSV;
3)每次最多上传 50 个文件;
4)每个文件不超过 100 MB;
5)支持选择文件夹,上传文件夹下符合要求的文件。
4.5.3设置分段规则
智能分段
MarkDown 范例的文件分段规则为:根据标题逐级下钻式分段(最多支持 6 级标题),每段的字符数最大为 4096 个字符;
当末了一级的文本段落字符数超过设置的分段长度时,会查找分段长度以内的回车进行截取。
HTML、DOCX 范例的分段规则为:识别标题格式转换成 markdown 的标题样式,逐级下钻进行分段(最多支持 6 级标题)每段的字符数最大为 4096 个字符;
TXT和 PDF 范例的文件分段规则为:按照标题# 进行分段,若没有#标题的责按照字符数4096个字符进行分段,会查找分段长度以内的回车进行截取。
高级分段
用户可以根据文档规范自界说设置分段标识符、分段长度及自动洗濯。
分段标识支持
:#、##、###、####、#####、######、-、空行、回车、空格、分号、逗号、句号,若可选项没有还可以自界说输入分段标识符。
分段长度
:支持最小 50个字符,最大 4096 个字符。
自动洗濯
:开启后体系会自动去掉重复多余的符号如空格、空行、制表符等。
4.6 模子配置
添加 Ollama 模子
点击【添加模子】,选择供应商【 Ollama 】,直接进入下一步填写 Ollama 供应商的大模子表单。或者左侧供应商先选择【 Ollama 】,然后点击【添加模子】,则直接进入 Ollama 表单。
模子名称
: MaxKB 中自界说的模子名称。
模子范例
: 大语言模子。
基础模子
: 为供应商的 LLM 模子,支持自界说输入,但需要与供应商的模子名称保持一致,体系会自动下载部署模子。
API 域名和 API Key
: 为供应商的连接信息(Ollama 服务地址, 如:http://42.92.198.53:11434 )。若没有 API Key 可以输入恣意字符。
点击【添加】后 校验通过则添加乐成,便可以在应用的 AI 模子列表选择该模子。
4.7 创建应用
点击【创建应用】,进入创建应用页面,左侧为应用信息,右侧为调试预览界面。
应用名称:用户提问时对话框的标题和名字。
应用形貌:对应用场景及用途的形貌。
AI模子: 在【体系设置】-【模子管理】中添加的大语言模子。
提示词
:体系默认有智能知识库的提示词,用户可以自界说通过调解提示词内容,可以引导大模子谈天方向.
多轮对话
: 开启时当用户提问携带用户在当前会话中末了3个问题;不开启则仅向大模子提交当前问题题。
关联知识库
:用户提问后会在关联的知识库中检索分段。
开场白
:用户打开对话时,体系弹出的问候语。支持 Markdown 格式;[-]后的内容为快捷问题,一行一个。
问题优化
:对用户提出的问题先辈行一次 LLM 优化处理,将优化后的问题在知识库中进行向量化检索;
开启后能提高检索知识库的正确度,但由于多一次询问大模子会增加回答问题的时长。
应用信息设置完成后,可以在右侧调试预览中进行提问预览,调试预览中提问内容不计入对话日志。
参数设置具体说明
1)
检索模式
:
向量检索:使用向量模子通过向量距离盘算与用户问题最相似的文本分段;
全文检索:通过关键词检索,返回包含关键词最多的文本分段;
混合检索:同时执行全文检索和向量检索,再进行重排序,从两类查询效果中选择匹配用户问题的最佳效果。
2)
相似度
:相似度越高代表问题和分段的相干性越强。
3)
引用分段数
:提问时按相似度携带N个分段生成提示词询问 LLM 模子。
4)
引用最大字符数
:引用分段内容设置最大字符数,超过时则截断。
5)
无引用知识库时
,有 2 种处理方式可设置:
继续提问:可以自界说设置提示词,需要有{question}用户问题的占位符,才会把用户问题发送给模子。
指定复兴内容:当没有命中知识库分段时可以指定复兴内容。
结语
MaxKB,作为企业级知识库问答体系的佼佼者,不但以其强盛的功能和机动的部署方式,为企业提供了一种高效、智能的信息处理方案,更在AI技术的连续进步中显现出无限的潜力。它通过深度整合天然语言处理和呆板学习技术,使得企业能够轻松应对数据洪流,实现信息的快速检索、精准分析和智能决策。
猜测未来,随着AI技术的进一步发展,MaxKB有望在知识管理和智能问答范畴发挥更大的作用。它将继续推动企业知识资产的有效管理和利用,助力企业在激烈的市场竞争中保持领先。我们期待与更多企业携手,共同探索MaxKB的无限大概,开启智能信息处理的新篇章。
参考引用
MaxKB GitHub项目地址
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
立山
金牌会员
这个人很懒什么都没写!
楼主热帖
IoTOS-v1.5.3 新增 智能诊断&会话记录 ...
【学习笔记】WPF-01:前言
基于SqlSugar的开发框架循序渐进介绍( ...
大数据管理框架CDP集群搭建
WPF源码轮廓
Python中可以用三种方法判断文件是否存 ...
OpenKylin上运行Avalonia应用
软件工程师能力模型探讨
利用Python自动生成请假条
读Java性能权威指南(第2版)笔记12_堆 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表