案例分享 | 金融业智能运维AIOps怎么做?看这一篇就够了 ...

打印 上一主题 下一主题

主题 791|帖子 791|积分 2373


构建双态IT系统,AIOps已经是必然的选择。运维数字化转型已是大势所趋,实体业务的逐步线上化对IT系统的稳定与安全提出更高要求,同时随着双态IT等复杂系统的建立,如何平衡IT运维效率与资本成为区域性银行面对的紧张问题,智能运维AIOps成为重要解决方案。


智能运维AIOps,根据Gartner的最新定义,指基于大数据、机器学习等能力提取和分析IT数据,为IT运维管理产品提供支撑。现在AIOps在银行业的重要落地场景有精准告警、异常检测、根因定位和容量分析等场景,明显优化运维资本且提高运维效率;同时,基于数据的深度分析优化运维质量,值得说明的是,为最大程度发挥IT数据的价值,基于同一平台整合多维数据,以全局运营视角解读IT运维,将是将来趋势。






一、案例配景

某国有银行(E银行)是五大国有银行之一。近年来,E银行将数字化转型上升至集团战略层面,充分发挥金融科技特色优势,连续加大金融科技资金投入强度,在财富管理、数字化发展、绿色金融等各业务层面都取得了积极成效。




  • 多重问题并存,银行传统运维系统急需转型升级
随着E银行数字化转型进程的不断推进,银行业务系统和基础架构愈发复杂,运维数据日益增长,运维能力越来越成为E银行数字化转型的紧张关注点。业务量的不断增长,为传统IT运维带来了以下几个方面的问题:
第一,数据治理难。随着数字化的演进和全行改革的深入,E银行业务量增多,数据规模急剧扩大,且数据种类与数据布局愈发复杂多样,由于数据尺度不同一,因此数据质量较低;且E银行数据分散在各应用处、会合度不高,数据之间存在孤岛现象,数据可复用能力欠缺。


第二,发现问题难。E银行在已往便建立了运维系统,但随着该系统在业务中的不断实践,出现了不少问题。起首,监控不全面,缺乏对团体业务运行状态的监控;其次,原有运维监控系统采用固定阈值告警,误报漏报率高;另外,原有运维系统发现问题较为被动,缺乏趋势猜测能力,无法在用户受影响之前实时识别问题,严重依赖运维人员经验,导致运维资本高、运维效率低。
第三,根因定位难。E银行原有运维系统和工具根本为过后统计分析,缺乏实时分析能力,缺乏以业务指标驱动的根因分析能力、场景化的相干性分析能力和告警、指标、日记等多维数据的交叉分析能力,对运维排障能力的提升作用很有限,导致运维故障处理能力较低。


第四,运营分析难。E银行传统运维系统重要依赖人工经验、通过报表来分析数据,缺乏智能化的手段进举措态数据分析;已往的运维数据分析重要从运维角度而从非业务视角出发,导致对数据的分析较为片面、落地性不强,数据价值挖掘不充分,无法为综合运营提供保障支撑。
除此,E银行另有一些定制化的需求。E银行部署了云平台,差异于传统技术架构,云平台对运维侧提出了更多需求,如与态势感知可视化工具进行深度联合,以识别并解决云上安全风险;另外,E银行对于内部安全能力也有要求,随着业务量的增长,内部违规利用的几率增长,E银行对内部人员违规利用的检测排查提出了新需求,对安全数据的整合能力成为了E银行紧张的关注方向。
综上,借助肯定的手段和方式,对客户的IT运维数据实现全量的会合化管理,实现数据实时处理、智能分析和猜测,进行多维度高效根因定位,实现运维侧的全面升级,成为E银行数字化转型的紧张诉求。基于此,E银行选择与擎创科技进行互助,就智能运维AIOps展开深度探索。


擎创科技2016年成立于上海,是国内首家智能运维AIOps落地解决方案的供应商。擎创科技专注于以AI赋能运维管理,激活运维数据智慧,助力客户数字化转型。现在其客户群已覆盖银行、保险、证券、制造、能源及交通运输等多个行业。
擎创科技基于自身强盛的大数据能力、流批一体处理能力和AI算法能力,从数据治理层(包罗数据收罗、数据处理、数据存储)、运维应用层以及运营决策层多个层级,为E银行提供了智能运维夏洛克AIOps全面解决方案。





二、具体实行计谋

1、构建数字运维中台,全面提升银行数据治理能力

数据是场景建立的基础。因此在数据治理方面,擎创为E银行构建了集成数据收罗、数据处理和数据存储多种功能的数字运维中台。
起首是多源数据收罗。夏洛克AIOps具备数据湖、APIs、客户数据等多种数据源的数据会合收罗能力,覆盖指标、变乱、日记等多种运维数据。无论是来自于工单系统、监控系统还是日记平台,均可作为可配置的数据源融入平台。别的,数据收罗会对接差异体系如容器云、K8s等。


其次,数据收罗完成后,必要进行数据处理。在两大技术栈Flink和Spark的基础上做了抽象,使二者合为一体并形成数字运维中台,使得平台凌驾了流批处理的专门开发。与此同时,使用可视化工具,实现数据标签化、体系化、规范化,使得数据可通过拖拉拽实现根本处理与一体化查询分析。


第三、提升运维数据储存能力。数据处理完毕后,需对经过处理的数据进行数据存储。擎创科技为E银行的运维数据存储提供了相应的技术栈和配套软件,同时也运用大数据工具,帮助E银行提升运维数据存储能力。
综合而言,擎创科技帮E银行构建的数字运维中台,为智能运维场景的建立提供了大数据处理、流批一体处理和AI算法平台三方面服务,奠定了E银行智能运维场景建立的基础,同时也连续提升了其运维数据的质量和治理水平,解决了E银行数据治理难的问题。




2、多样化智能运维场景,助力问题发现与根因定位

在数字运维中台的基础上,夏洛克的运维应用层联合数十种算法,帮助E银行机动构建了多样化的智能运维场景,产出其必要的分析结果。
智能运维场景包罗告警主动抑制、故障场景发掘、指标异常检测、日记异常检测、综合根因定位、业务多维分析、容量分析猜测等,重要抽象为四大产品应用——告警辨析中心、指标解析中心、日记精析中心和日智速析专家。
告警辨析中心以机器学习算法为驱动,对海量的告警变乱进行降噪和关联分析,辅助E银行实现问题猜测发现以及根因定位。

​指标解析中心基于交易异常、指标关联、拓扑集成、根因推荐能力,帮E银行迅速发现及猜测指标的异常颠簸,并且判定指标间的关联关系,辅助根因定位。



日记精析中心具备多样化开箱即用模板及智能分析能力,帮忙E银行全面分析数字化业务团体状况,提升了其故障根因定位、日记审计、异常检测等运维能力。
日智速析专家则实现了将海量日记聚类到肉眼可读的数目,智能识别日记发生规律,分析日记异常并智能告警,从而助力E银行无需了解日记布局即可发现问题、定位根因。通过四大应用的构建,E银行可快速发现异常并定位根因,从而提升运营效率。


将来,在智能运维的基础上,擎创科技还将辅助E银行实现了从智能运维到智能运营的跃升。擎创科技以全局运营视角解读IT运维,在打通E银行全域数据的基础上,帮其个性化定制专属运营决策中心,精准、实时、动态地显现系统运行状况,并通过对数据价值的提炼分析,有效支撑运营决策,彰显运维对业务的影响力。




3、夏洛克AIOps综合解决方案,助力银行实现高效运维

通过夏洛克AIOps综合解决方案的实行,擎创科技帮助E银行解决了多种问题,实现了高效智能运维:
第一,提升了数据质量和数据治理能力。通过采用数字运维中台进行数据治理和运维数据会合化管理,打破了数据壁垒,极大地提升了数据尺度化程度,提升了数据质量,为后续数据分析运用提供了保障支撑。
第二,提升了问题发现的能力。E银行通过部署夏洛克AIOps智能运维平台,基于四大智能运维应用,降低了误报率,减少了一线人员的工作量,且极大提升了提前发现异常和容量预警的速度。


第三,实现高效的根因定位。E银利用用交易类指标异常检测以及与多种基础架构指标异常做相干性分析,联合拓扑相干性以及日记异常模式排查,实现了分钟级别定位故障源的高效综合排障。
第四,提升了运营分析能力。通过智能运维建立,E银行实现了对告警、日记和各项指标的全方位管理和智能化分析,运营风险降低约70%,运营效率提升约6倍,数据中心团体SLA(服务水平)得到了极大提升。



​擎创科技,Gartner连续推荐的AIOps范畴标杆供应商。公司致力于帮忙企业客户提升对运维数据的洞见能力,优化运维效率,充分体现科技运维对业务运营的影响力。

行业龙头客户的共同选择


​了解更多运维干货与技术分享

可以右上角一键关注

我们是深耕智能运维范畴近十年的

连续多年获Gartner推荐的AIOps标杆供应商

下期我们不见不散


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

络腮胡菲菲

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表