ToB企服应用市场:ToB评测及商务社交产业平台

标题: 可观测建设实践之 - 日志分析的权衡取舍 [打印本页]

作者: 卖不甜枣    时间: 2024-5-16 07:45
标题: 可观测建设实践之 - 日志分析的权衡取舍
指标、日志、链路是服务可观测性的三大支柱,在服务稳定性保障中,通常指标侧重于发现故障和问题,日志和链路分析侧重于定位和分析问题,此中日志现实上是串联这三大维度的一个精良桥梁。
但日志分析每每面临成本和效果之间的权衡问题,没有完美的方案只有适合的方案,本文将结合实战经验,介绍一种日志分析的实现,分析如何在稳定性保障中用好日志这个维度,以及日志如何与指标、链路相互配合形成故障定位的最佳实践。
日志分析难点

1)规范问题:服务模块的语言和框架各异,日志格式不规范,分析困难;
2)管理问题:微服务模块众多,日志收集和管理困难;
3)成本问题:日志的保存和计算分析需要斲丧大量的资源,主要是存储计算资源,使用成本高;
日志分析方案

本文推荐一种在稳定性保障中,颠末考量和实战的日志分析方案。故障处理场景中日志分析的焦点思路:


优点和权衡

这个方案的优点和权衡点在于:

该方案以日志为中心,实现了一条日志、指标、trace相互串联的问题发现和分析路径,这条路径也是故障问题分析的典范路径。
同时从方案的落地和推动成本上来讲也是一个比力合适的取舍。如果可观测产品支持好这条路径信息的串联,会大幅提升异常问题定位分析的服从。
方案落地要点

混淆云资源、观测体系众多,是目前很典范的企业基础设施近况,在此基础上要实现这个方案可能需要重点解决以下几个问题:
1)存量体系如何打通:指标、日志、trace都可能已经有各自独立的体系,如何串联融合不同体系的数据?
2)云上云下如何打通:很多企业使用了私有化和公有云的混淆云方案,日志可能也同时使用了私有化的ELK和云上的日志体系,如阿里云SLS和腾讯云CLS;
3)风险成本如何控制:如果为此要全部推导重建,用一套体系替换原有体系,风险和成本都太高,周期长也不可控;
产品实践

这里介绍快猫星云的 Flashcat 是如何解决这些问题的。


 

总结

本文介绍了稳定性保障中日志分析体系建设面临的问题、挑衅、需求和建设中的权衡取舍。并介绍了 Flashcat 如何解决这些问题,做到效果和成本最佳,也最具落地的可行性。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4