ToB企服应用市场:ToB评测及商务社交产业平台

标题: 大模型太给力了,数据库运维工作量直接减少 50%! [打印本页]

作者: 丝    时间: 2024-10-15 07:14
标题: 大模型太给力了,数据库运维工作量直接减少 50%!
本文源自百度智能云数据库运维团队的实践,深入探究了基于大模型构建「知识库智能问答体系」的计划过程和应用。
全文包括了总体的技术方案选型、各个模块的计划实现、重点难点问题的突破、以及目前的落地场景应用等。
该体系自从内部上线以来,整体的回答准确率到达 80% 以上,数据库运维工作量直接减少 50%:包括 80% 咨询量,以及 20% 工单处理工作。

1 背景
随着大模型的飞速发展, AI 技术开始在更多场景中遍及。在数据库运维领域,我们的目标是将专家体系和 AI 原生技术相融合,帮助数据库运维工程师高效获取数据库知识,并做出快速准确的运维决议。
传统的运维知识库体系重要采用固化的规则和策略来记载管理操作和维护的知识,这些体系的知识检索方式重要基于关键字搜刮和预界说的标签或分类,用户需要具备肯定的专业知识才能有用地利用这些体系。
这已不足以满足现在复杂多变的运维情况。因此,借助大模型来提供运维知识并协助决议成为趋势。这将在运维本领、成本控制、效率提升和安全性等方面带来深刻的变革。
在数据库领域,AI 技术应用可以分别为不同场景,例如知识库学习(包括知识问答和知识管理)、诊断与推理(包括日记分析和故障诊断)、工作辅助(包括 SQL 天生和 SQL 优化)等。本文将重要侧重介绍「知识库智能问答体系」的计划与实现,旨在为读者提供深入了解该领域应用的思路。
2 架构计划和实现
2.1 技术方案选型
目前,大模型已经可以通过对天然语言的明白推测用户意图,并对原始知识举行汇总、整合,进而天生更具逻辑和完备性的答案。然而,仍存在以下几个问题,导致我们不能直接使用这些模型来对特定领域知识举行问答。

为了办理这些问题,业界采用了如下几种技术手段来为大型模型提供额外知识。

为了确保准确性和效率,我们选择了第 2 种和第 3 种方式相结合的方案,通过向量数据库将知识外挂作为大模型记忆体,使用 LangChain 作为基础开发框架来构建知识库问答体系,最终依赖 Prompt 工程和大模型举行交互。
2.2 分模块计划实现
数据库运维知识库的整体计划流程如下图所示,包括文档加载、文档分割、文本/问题向量化、问答缓存、大模型天生答案等流程。

2.2.1 知识入库



2.2.2 数据检索

2.2.3 结果整合
将向量数据库检索召回的文本举行二次加工后,利用 LLM 总结概括和分析推理本领,完成最终答案的天生。

3 技术难点和办理方案
**3.1 难点一:向量数据库召回率低
**
尽管通过将知识嵌入(Embedding)与大型语言模型相结合已经成为一种高效的实现路径,但向量数据库在向量化、存储和检索等多个阶段都可能存在问题,进而导致检索结果的召回率不尽如人意。在现实测试中,我们在未经优化的情况下,召回率仅到达了 70% 左右。而一个相对可靠的体系,召回率至少需要到达 85% 或甚至 90% 以上。以下是我们在应用中采取的优化措施。
3.1.1 精确切分文本


3.1.2 优化文本向量化

3.1.3 Embeddings 和向量检索调优
对于 Embeddings 的选择和调优,上文已经介绍过,我们最终选择了结果更好的文心 Embedding。对于向量数据库检索性能,这里优化空间并不大,调整 HNSW 算法的参数,对最后召回结果影响不大。
3.2 难点二:Token 数目限定
在应用大型语言模型时,我们面临的重要限定之一就是输入文本的上下文长度。开源模型和商业模型的上下文长度限定范围从 2K 到 100K 不等。上下文长度对于应用大型语言模型具有关键影响,包括知识增强、记忆等方面的工作,都是为了办理上下文长度限定而计划的。以下是我们采取的策略:




3.3 难点三:知识陈旧和虚构答案
在商业大型模型的大多数应用场景下,模型能够为 MySQL、Oracle 等数据库的相关问题提供令人满意的答案。然而,不可避免地,这些大型模型有时会出现知识陈旧和答案虚构的问题。为了提供更加丰富和准确的答案,我们采用了一种搜刮和推荐体系的方法,并结合了大型模型的推理和总结本领。以下是我们的重要方案和流程:



可以看到文档解析和大模型调用着实就是在重复我们前边介绍的领域知识入库和结果的二次整合过程,唯一不同的地方就是我们使用搜刮引擎去取代了向量检索。以 MySQL 为例子,详细流程如下:

4 应用场景接入
该体系自从内部上线以来,整体的回答准确率到达 80% 以上,数据库运维工作量直接减少 50%,包括 80% 咨询量,以及 20% 工单处理工作。
目前「知识库智能问答体系」重要通过两种方式接入和应用:Database Chat 和 IM 机器人。


5 总结
从技术工程角度来看,利用向量数据库结合大型 AI 模型来构建领域知识库体系的实现并不复杂,然而,这一领域仍旧面临着不少挑战和潜在的改进空间。在本文中,我们已经讨论了一些办理方案和技术,但仍旧有许多可能的改进和将来发展方向值得深入研究。
起首我们认为关键点还是办理向量检索的召回准确性和超长文本处理本领是两个难点,这些方面可能还有更好的方式。此外,大模型本身的本领和文档质量是体系性能的关键因素,因此需要不断升级和维护模型,同时确保文档的及时性和准确性。
我们盼望更多的研究者和工程师积极贡献更多的创新思路和技术,推动大模型在数据库运维领域落地,等待将来能有更多的可能性。
零基础如何学习大模型 AI

领取方式在文末
为什么要学习大模型?

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如天然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握计划和实现基于大模型的应用体系所需的基本原理和技术,从而提升本身在数据处理、分析和决议订定方面的本领。此外,大模型技术在多个行业中的应用日益增长,掌握这一技术将有助于提高就业竞争力,并为将来的创新创业提供坚固的基础。
大模型典型应用场景

AI+教诲:智能讲授助手和自动评分体系使个性化教诲成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习结果。
AI+医疗:智能诊断体系和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生举行早期诊断,同时根据患者数据订定个性化治疗方案。
AI+金融:智能投顾和风险管理体系帮助投资者做出更明智的决议,并及时监控金融市场,识别潜在风险。
AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现装备猜测性维护,减少停机时间。
AI+零售:智能推荐体系和库存管理优化了用户体验和运营成本。AI可以分析用户行为,提供个性化商品推荐,同时优化库存,减少浪费。
AI+交通:自动驾驶和智能交通管理提升了交通安全和效率。AI技术可以实现车辆自动驾驶,并优化交通信号控制,减少拥堵。

这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来现实效益,推动行业创新发展。
学习资料领取

假如你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给各人发


部分资料展示

一、 AI大模型学习门路图

整个学习分为7个阶段

二、AI大模型实战案例

涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。

三、视频和册本PDF合集

从入门到进阶这里都有,跟着老师学习事半功倍。


四、LLM口试题


假如二维码失效,可以点击下方链接,一样的哦
【CSDN大礼包】最新AI大模型资源包,这里全都有!无偿分享!!!





欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4