人工智能-字节跳动基础架构SRE-Copilot获得2023 CCF国际AIOps挑衅赛冠军

反转基因福娃 发表于 2024-8-22 14:17:52

字节跳动基础架构SRE-Copilot获得2023 CCF国际AIOps挑衅赛冠军

近日，2023 CCF国际AIOps挑衅赛决赛暨“大模型时代的AIOps”研讨会在北京成功举办，运动吸引了来自互联网、运营商、科研院所、高校、软硬件厂商等领域多名专家学者到场，为智能运维的前沿学术研究、落地生产实践打开了新思绪。决赛中，从初赛两百多支队伍中脱颖而出的十支入围队伍分别展示了各自的方案，并举行了现场答辩，评审专家从选题方向、创新性、实用性、完备度和实行复现结果等多角度举行了综合评定，终极，来自字节跳动基础架构-SRE 团队的 SRE-Copilot战队，以“SRE-Copilot：基于 LLM 的多场景智能运维”，获得本届大赛冠军。
https://i-blog.csdnimg.cn/blog_migrate/5cd90cc0a628ab120e510bee52cb8b59.jpegCCF国际AIOps挑衅赛由中国盘算机学会（CCF）、清华大学和南开大学团结发起，旨在借助社区气力，运用人工智能算法办理各类运维难题。自2017年底初次举办，迄今为止已经成功举办六届，吸引了大量AIOps从业者和关注者，赛事规模和影响力不断扩大，是智能运维领域极具影响力的专业赛事。本届CCF国际AIOps挑衅赛共有来自265支队伍的677名选手报名参赛，决赛现场有超300人线下参会，同时有近5万人次观看线上直播。
CCF国际AIOps挑衅赛自创办以来，赛题覆盖了不同的运维场景、运维数据、故障泉源、应用范例。本届大赛赛题全新升级，初次接纳开放式赛题，基于建行云龙舟运维平台的稳定性工具和多维监控系统，由参赛选手自主确定必要办理的运维题目，并对主理方提供的交易、日志、调用链、监控指标等一种或多种模态数据举行故障检测、定位、根因分析、影响分析等。本次赛题不再局限于单个运维场景，而是模拟了企业运维团队面对的系统架构复杂、数据规模庞大、数据种类繁多等一系列必要办理的运维挑衅，使AIOps生态里的所有产、学、研、用各方，都可以基于同样的数据，展开竞赛，并鼓励参赛选手探索大语言模型（LLM）在智能运维领域的应用。
https://i-blog.csdnimg.cn/blog_migrate/27ef7df14021d0520cfd49de8da54b91.png为拥抱这一变化，SRE-Copilot战队提出了一套基于大语言模型的多场景智能运维框架——SRE-Copilot，该框架参考了GPT的思想，即通过集成学习的方式，用多个专业的子Agent组合成强大的混合专家（MoE，Mixture of Experts）系统，支持多个智能体Agent的协作与动态编排调理，有操持、记忆、反思与推理等能力，为SRE提供智能化服务，切实提升SRE工作效率。其技能性和创新性主要体如今以下几个方面：
1、基于 ReAct 框架和CoT思维链的 Multi-Agent 编排调理，实现了多模态数据按需异常检测
ReAct的思想参考自论文ReAct: Synergizing Reasoning and Acting in Language Models，包罗推理（Reasoning）和行动（Action），推理帮助模型天生、追踪和更新操持并处理异常，行动答应模型与外部环境交互以获取更多信息Observation，提升正确率与顺应性。
https://i-blog.csdnimg.cn/blog_migrate/e33b9b00ed37fe911073eed00fe9a729.png在异常检测场景中，首先定义多数据源Agent，分别负责选择合适的算法对不同模态数据举行异常检测与检索，主持人Copilot负责剖析用户意图，RCAAgent负责收集其他Agent检测到的异常结果与链路、设置信息，举行根因定位。如上图所示，用户提问中提到“交易大量失败”，此时模型会将题目交给负责交易数据的TradeAgent举行检测，TradeAgent检测得出“交易性能降落”，则题目会进一步交给负责性能数据的MonitorAgent。通过这种模式，将排障流程举行下去，每个Agent的检测顺序及内容均根据检测到的异常动态编排。RCAAgent负责收敛协作轮次，并根据反馈决定下一步分析与下钻的方向，当没有额外信息时，就会制止检测，举行根因定位。
SRE-Copilot模拟了真实的大规模云平台跨组件协同定位，利用多个Agent替换多个组件运维团队，发挥各自所长，并动态编排决定排查方向；同时，SRE-Copilot更关注多个组件（多个数据）的体现形态，而非根据单一组件（单一数据）判定是否异常，低沉噪声，具有更高的鲁棒性。
2、基于 RAG 检索增强的框架举行根因推理
检索增强天生 (RAG) 是使用来自私有或专有数据源的信息来辅助文本天生的技能。它将检索模型（用于搜索大型数据集或知识库）和天生模型（使用检索到的信息天生可供阅读的文本复兴）结合在一起，通过从更多数据源添加背景信息，比如训练 LLM 时并未用到的互联网上的新信息、专有贸易背景信息或者属于企业的内部文档等，来补充LLM原始知识库，改善大型语言模型的输出，使天生的答案更可靠，另有助于缓解“幻觉”题目，且不必要重新训练。
根因定位过程主要包罗以下过程：

[*]知识库构建：必要提前定义一些专家诊断经验和历史故障库，并将信息转化为高维度空间中的向量，存储在向量数据库中。专家经验可以由运维工程师或者业务专家来定义，比如：流量突增，内存打满，服务不可用，对应的可能是大量访问带来的题目，此时应该扩容或重启等。
[*]RAG检索增强：使用异常检测天生的故障摘要作为输入，对历史故障、专家经验、知识库文档等举行检索，检索的TopN结果作为上下文和原始提示词组合，再提交给LLM举行根因定位。LLM的参数化知识是静态的，RAG让LLM不消重新训练就能获取最新相关信息，提升了模型的正确性和实时性。
[*]推理与反思：由于本次比赛使用的是6b的小模型（兼容本地化部署环境），推理稳定性较差，因此引入“反思”机制，让模型对自己诊断的根因举行再次判定，进一步进步了根因定位的正确度。
[*]学习新的计谋：每次诊断结果既会天生诊断陈诉，也会加入模型记忆，再次诊断时对最相近的专家经验与诊断结果举行推理，让模型获得持续学习与迭代的能力。
基于RAG，纵然是小模型，在没有专家经验和历史故障的输入时，仍旧能对一些简单题目举行根因推断，例如：磁盘写满故障、java虚拟机GC题目等等。通过让模型举行自我评估和自我反省，能够将模型推理根因的正确率进一步提升30%以上。模型在诊断过程中能够不断迭代、持续学习，随着学习和推理的渐渐完善，SRE-Copilot故障诊断的能力也将不断提升。
3、沿着稳定性全生命周期管理，提供多种运维能力
https://i-blog.csdnimg.cn/blog_migrate/79d606af0a577f418e5a007c5f432f3f.png基于大语言模型使用tools的能力，把散落的各个运维场景举行统一集成，明白、拆分用户意图，编排调用不同工具，提供稳定性建设全流程的智能运维能力。用户可通过自然语言提问方式使用SRE-Copilot框架的以下运维能力：

[*]运维操持：剖析用户运维需求，天生自然语言的工作流，并从系统可调用的组件中选择合适组件，动态天生可执行的工作流；
[*]运维可视化：通过自然语言交互，自动执行浅显的数据查询/分析，对故障数据举行可视化；
[*]异常检测：支持多模态数据范例，灵活拓展，通过多Agent协同编排，整合不同平台数据，极大收缩MTTR；
[*]根因定位：无监督，支持专家经验、历史故障输入，对已知故障正确率高，对于未知故障可推理；
[*]故障分类：根据专家经验和历史故障所属种别，以及本次故障体现，对故障举行分类，有助于后续按组织或改进措施推进复盘与优化；
[*]故障自愈：在推理得到故障根因和故障分类后，可以保举合适的自愈措施，流程自动化，让运维职员会集精神，无需频仍切换上下文，确保相应和处理的及时性和正确性；
[*]代码天生：基于用户的提示天生代码，将复杂脚本的调试开发时间从几小时收缩到几分钟；
[*]故障陈诉：利用LLM自动天生故障诊断陈诉，以自然语言方式表述5W题目：When-Where-Who-What-Why，显著提升故障诊断陈诉的效率与质量，方便团队积聚经验和知识库；
[*]知识库问答：基于本地知识库举行私域知识问答，提升应答正确率，减少Oncall系统人力投入。
综上所述，SRE-Copilot框架将大语言模型引入AIOps领域，办理了一些传统AIOps的痛点题目，具有以下优势：
首先，当前各公司系统架构愈发复杂，各种组件依赖越来越多，很难有一个运维团队精通全部架构及组件的技能细节。而LLM可以学习近乎无限的知识，也可以通过设计多个专家Agent的方式举行编排调理无限拓展，读取、检测不同系统不同数据源的异常信息，并将多模态异常都转化为LLM可明白的半结构化或结构化语言情势，交由LLM分析诊断，提升了故障处理效率。
其次，传统AIOps算法大多是单场景、单AI、办理单个题目，且异常检测和根因诊断大部分算法都依赖于数据的标注。而LLM基于检索增强的方式，不必要或者很少用人工标注的数据举行训练，很大程度上办理了传统AIOps领域人工标注的本钱高、周期长、准确度受限等题目，减少了训练所需的数据量。
同时，在接入维护方面，传统AIOps当遇到新客户、私域知识、业务经验、数据变更等情况时，通常只能重新训练，而LLM的泛化能力、自监督学习能力与交互情势，让开发者与客户可以肯定程度上松耦合：开发者低沉了对客户数据的依赖程度，用统一的大模型或预训练的行业大模型，就能办理客户大部分题目；而客户仅必要相识自己的系统逻辑，通过简单微调就能获得模型的通用能力，通过多Agent的方式，甚至可以将自己的逻辑经验轻松接入，低沉了接入本钱。
接着，LLM已经在其他领域出现了涌现和推理能力，通过对通用知识的学习，可以对未知故障举行推断，人工确认后加入知识库或记忆来实现模型演进，这似乎是办理新故障诊断的最佳选择。
最后，LLM都是自然语言的情势交互，无需严酷传参，低沉了使用本钱，其精调和上下文学习的语料也都是语言情势，业务SRE可以一起到场共建。
团队介绍：
基础架构-SRE，负责字节跳动基础架构部门所有组件的SRE工作，沿着本钱、稳定性、效率、服务四条主线，致力于打造高扩展、高可用的生产系统。基础架构-SRE-数据化团队，负责SRE的数据化运营及智能化探索，数据化产品包罗基础架构离线数仓与数据门户、资源交付数据化运营系统；智能化方向涵盖异常检测、智能变更、故障诊断、智能限流、运筹优化与大语言模型应用。协同和赋能SRE从DataOps向AIOps和ChatOps变化，是我们一直努力的方向。接待加入，共同探索大模型在智能运维领域中的落地应用：https://jobs.bytedance.com/experienced/position/7262287728477751589/detail

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

qidao123.com技术社区-IT企服评测·应用市场's Archiver

字节跳动基础架构SRE-Copilot获得2023 CCF国际AIOps挑衅赛冠军