2024·可观测性市场趋势分析|附全景图

打印 上一主题 下一主题

主题 990|帖子 990|积分 2970




需求是发明之母,但它往往会播下复杂的种子。
随着应用程序不断发展,以满足用户对更复杂、更高性能和个性化体验的需求,其底层架构和组件的复杂性也随之增加。因此,有效的监控和调试对任何产物的成功都至关重要。然而,要实现高度的准确性往往必要先进的工具和专业知识,以便在分布式架构、多云环境、第三方API集成、嵌入式机器学习模型和网络/移动/边缘部署等方面对应用程序进行正确的检测。
数据一致性是一个常见的可观测性挑战。这些错综复杂的系统中的每个组件通常都会发出自己独特的遥测格式,从而导致接二连三的肴杂信号流,供站点可靠性工程师(SRE)解码。这些复杂性导致基础设施、软件和工程资源成本不断攀升,而洞察力却往往没有相应提高。
别的,该行业还在积极覆盖产物生命周期的所有阶段和角色。我们认为,可观测性的范围正在不断扩大,不再局限于系统和IT运营的传统定义。这包括“左移”,为开发人员提供更快、更有效的故障排除、调试和代码级监控,以及"右移",为业务长处相关者提供客户使用情况和影响产物KPI的活动的可见性。
末了,随着现代应用范围的扩大,业界必须不断将方法扩展到新的环境和新兴的工作负载类型,如LLM赋能的组件。
这些挑战为下一代颠覆者打开了大门,他们承诺在不牺牲洞察深度或清楚度的条件下,实现更大的覆盖范围、互操作性和成本效益。比年来,业界经历了一波新的可观测性创新能力和方法海潮,包括数据管道、流内分析、数据库和存储层优化、人工智能驱动的根本缘故原由分析、尺度化数据格式等。
多年来,Sapphire Ventures有幸支持了可观测生态系统中一些令人难以置信的公司。随着可观测性生态系统的不断发展,我们很高兴能与大家分享我们对2024年及以后影响这一领域的主要趋势的看法:

  • 可观测性管道提供遥测数据的实时过滤、丰富、规范化和路由选择
  • 插入LLMs简化用户体验,增强分析和下游自动化功能
  • AI/ML可观测性工具的出现有助于监控和优化AI/ML工作负载
  • 全行业尺度化和OpenTelemetry
  • 自带存储后端,更灵活、更高效地利用基础设施
  • 对CI管道的可见性,以优化端到端软件开发流程
  • 将业务结果与系统数据接洽起来,将产物级数据与后台性能接洽起来


2024年可观测性市场趋势1.可观测性管道
随着数据量和成本的不断增加,企业必要对其遥测数据(从采集、处理、路由到存储和存档)进行更精细的控制。可观测性(o11y)管道是一种获得广泛应用的方法,它已成为低落总体摄取成本和数据量的有效途径。
管道充当遥测网关,执行实时过滤、丰富、规范化和路由,通常存储到AWS S3等便宜/深度存储选项中,从而减少对更昂贵的专有索引器的依靠。除了节约成本,我们还看到另一个常见的好处,特别是在企业中,就是数据(重新)格式化。在这种情况下,管道客户可立刻将传统数据结构转换为更基于尺度的格式(如OpenTelemetry),而无需"触碰"或重新构建传统代码库。
数据管道既可以作为独立的办理方案,也可以作为更广泛的可观测性套件的原生子组件。无论起始定位如何,我们信赖这一领域的到场者都将继续扩大,随着时间的推移支持更广泛的操作用例(例如,Cribl已将管道扩展到应用程序监控(通过AppScope)之外)。
2.插入LLMs
多年来,可观测性市场不停使用传统的ML模型来提供异常检测、容量猜测、中断检测和其他猜测功能(通常被称为AI-Ops办理方案)。最近,平台厂商开始使用LLMs为其产物注入更多智能,并简化整体用户体验。
LLMs使用自然语言来配置平台、检测应用、创建仪表盘和组合查询,然后将所有这些内容翻译成特定于平台的下令和语法。一旦建立了基线配置,LLMs还能随着时间的推移进行学习和调整。它们可以个性化管理控制台,根据用户亲和力和以往的交互情况显示常常查看的应用组件和相关指标。
LLMs还使人们更容易明白复杂的系统警报。它们将充满深奥技术术语的警报转化为人们更容易阅读的文本。由于LLMs可以摄取和分析大量非结构化数据,Flip.ai等公司正在寻找新的方法,将它们应用到更传统的日记分析和人工智能运营功能中,在复杂的系统中识别模式、推断意义(如用户反馈的情感分析)并确定根本缘故原由。
末了,随着时间的推移,LLMs的可猜测性和可解释性不断提高,我们预计它们将开始自主决策。代理能力或决策能力很可能会显现出来,特别是在支持事件管理工作流方面,模型将被赋予自主权,既能即时组装运行手册,又能接纳步调执行潜在的下游修复。
值得注意的是,固然LLMs在o11y中的应用前景广阔,但如果不进行大量的领域定制和使用特定案例培训,它们在解释技术数据和产生可操作看法方面的有效性仍然是一个重大障碍。
3.AI/ML可观测性的出现
随着人工智能炒作周期的加快,我们看到了支持从实验到生产部署的端到端模型开发生命周期的新工具和功能的爆炸式增长。模型监控工具对最新模型的持续发展至关重要,它有助于验证AI/ML应用程序的完备性和可靠性,尤其是在生产模型及其训练数据集随着时间推移而不断发展的情况下。
除了监控CPU利用率和响应时间等更传统的康健指标外,新兴的模型监控平台还能评估其他问题。这包括模型性能(例如,根据定义的评估指标(如PPV)进行周期性检查)、漂移(例如,检测模型在训练时与生产时的统计差异)和数据质量(例如,卡片性偏移、类型不匹配)。
我们对这一领域不断发展的一个方面感到特别高兴,那就是LLM可观测性。这门学科以传统的ML监控为基础,捕捉与构建、调整和运行LLMs相关的重要信号。例如,Weights&Biases等公司支持LLM跟踪,这使团队可以或许可视化地监控提示输入、中心猜测、代币使用等多阶段LLM链上的交易执行情况。别的,Aquarium Learning等公司的下一代产物分析工具也将推向市场,这些工具通过LLM驱动的界面提供了用户交互的可视性(例如,将常见主题和用户活动与产物指标相关联,以确定积压工作的优先级并为路线图提供信息)。末了,我们还看到一些平台在不断扩展,以提供非结构化数据实体的模式识别和漂移检测(如矢量化嵌入),从而提高基于RAG的工作流程的准确性。
4.全行业尺度化和OpenTelemetry
从历史上看,可观测性市场不停被拥有专有数据格式的厂商所垄断。这就造成了一种"加州旅馆"式的锁定局面,迫使企业整合和管理错综复杂、互不关联的监控办理方案。
随着时间的推移,社区熟悉到专有数据格式的局限性,开始互助订定开放尺度,OpenTelemetry项目就是此中的佼佼者。OpenTelemetry(又名OTel)是一套开放尺度,包括线规、API、SDK、工具和插件,用于以厂商中立的方式从现代系统中收集和路由遥测数据。它最初是两个相互竞争的项目(CNCF的OpenTracing和谷歌的OpenCensus),旨在提供厂商中立的分布式跟踪API。这两个项目于2019年归并,今后又增加了对度量和结构化日记的支持。OTel如今是继Kubernetes之后第二个最活泼的CNCF项目,我们看到新兴初创公司和现有公司都在向该规范看齐,以满足客户对尺度化和跨平台兼容性的需求。
尽管如此,固然社区已普遍接受OTel,但许多企业仍处于转变的初期,特别是考虑到重新仪表化遗留应用和转换与现有监控办理方案绑定的现有运行本的复杂性。不过,我们很高兴看到OTel的发展势头在2024年继续保持,尤其是CNCF在尺度化查询语言、改进OTLP(OpenTelemetry Protocol)数据压缩和引入CI/CD遥测支持方面所做的积极。我们也很高兴看到其他开放尺度的发展,包括开放网络安全模式框架(OCSF),该框架试图为记录常见的安全事件订定全行业的尺度格式。
5.自带存储后端
我们认为,许多下一代o11y工具的架构正在发生转变,数据堆栈正在成为"新的后端",而提供商的目的是将存储层和计算层完全分离。这种分离使每个基础架构层都能根据各自的容量要求进行独立扩展。通过消除专有的(成本高昂的)索引器,这种方法还释放了存储层的可选性。这反过来又使客户可以或许"自带"首选数据库和存储办理方案,充分利用现有资产,并实现对数据驻留和访问的更细粒度控制。
提供这种互操作性说起来容易做起来难,尤其是考虑到不同存储引擎的性能特点、模式模型和索引风格各不相同时。像Coralogix这样的可观测性平台就是一个很好的例子。他们对可视化和分析引擎进行了架构计划,以便在AWS S3等"便宜而深入"的存储办理方案中运行。
6.CI管道的可见性
随着软件项目规模的扩大,无论是代码库规模照旧工程资源数量,其底层CI/CD管道的复杂性通常也会随之增加。缓慢的构建时间、不稳定的测试和归并冲突可能会延迟发布,占用新功能开发的资源,并增加基础设施成本。在单核项目中,这些挑战会进一步加剧,因为每个提交都有可能触发构建和测试线束,而这些线束会超过整个代码库的很大一部分。
Jellyfish等工程服从平台提供了SDLC端到端性能的可视性(如周期时间、变更准备时间),与DORA等尺度框架保持一致。当出现偏离基线的情况时,CircleCI(Sapphire Ventures的投资组合公司)等公司提供的CI和测试分析办理方案会提供下一级的具体信息,以资助找出并修复特定瓶颈的根源。它们收集作业持续时间和CI基础架构利用率等关键指标并发出警报,还能通过对多次运行的历史分析检测出不稳定的测试。Trunk.io等新兴初创公司正在收集相关性能数据,然后自动在PR中进行注释,同时还提供实时调试功能(如暂停作业、SSH毗连到短暂的CI运行程序),以避免代价高昂的重启。
固然CI分析和工程智能工具通常被认为不属于“传统”监控或系统可观测性的范畴,但我们认为这些工具为开发人员提供了亟需的可视性,并表明这一种别正在向更广泛的方向扩展,以涵盖产物生命周期的所有角色和阶段。
7.将业务结果与系统数据接洽起来
产物体验监控和系统监控工具向来都是各自为政。最近,我们看到了将这些领域融合在一起的推动力,以了解终极用户活动与系统级信号之间的相关性。例如,产物级指标可能会显示用户对某项功能的到场度较低。为了丰富这一指标,系统监控工具可能会发现该功能的底层代码存在错误率高或响应时间慢的问题。相反,基础架构监控工具可能会检测到利用率峰值,当与产物分析相关联时,就会突出显示有问题的用户活动,如过分使用特定功能。
我们看到有几家公司在这方面不断推陈出新,通过错误跟踪和其他以APM为重点的指标来增强数字体验监控与分析功能,从而更深入地了解特定用户群及其与系统的交互情况。同样,Statsig和Unleash等功能管理平台也与可观测性平台集成,以更好地将功能采用情况与系统级性能信号接洽起来。

探索可观测性市场机遇如下图所示,o11y市场的增长从2019年的610亿美元增至2023年的1,050亿美元,这表明了该领域变革性结果的巨大商机。我们已经确定了上市和未上市纯粹可观测性厂商(不包括超大规模企业和其他大型/广泛技术现有企业的办理方案,但包括Splunk)的总收入超过100亿美元,这凸显了一个蓬勃发展且诱人的市场,有待新一代初创企业去征服。
o11y市场的扩张在很大程度上受到了数字化转型的影响,这使得从应用程序中收集的数据比以往任何时候都更加重要。该行业对市场变革的顺应能力证明了这一点,从最初COVID高峰时期"不吝一切代价"的IT支出激增,到2022年及以后更加均衡、更注重成本的支出模式。市场的正常化和修正后的反弹能力彰显了其在数字时代的韧性和战略重要性。

驾驭可观测性市场格局在下面的全景图中,我们试图根据最初和/或历史上的市场重点对公司进行分类。然而,许多领先的厂商已经并将继续发展成为端到端平台,使他们可以或许在我们概述的大多数功能区中竞争。例如,Grafana被归入可视化种别(事实上的尺度),但厥后扩展为全栈可观测性平台,提供APM、日记分析、基础设施监控、事件响应等功能。
类似的平台扩展不仅体如今单个功能上,还体如今跨领域上,特别是在IT监控和网络安全的融合方面。例如,Datadog最初专注于云基础设施监控,但厥后通过SIEM、CSPM和CWPP扩展到了安全领域。除了寻找新的收入增长点外,这种融合的部分缘故原由还在于,安全和可观测性工具通常可以利用重叠的数据集,并部署类似的主机代理进行收集。通过归并这些功能,客户可以避免代理蔓延,实现厂商整合目的,并从归并的数据会合获得独特的看法。
*公司按最初关注的领域分类,许多公司在多个领域开展业务。我们不停在积极进行分类,因此决定根据公司的起步阶段对其进行分类。
下面,我们将简要介绍本全景图中列出的功能种别的定义:

  • 数字体验监控与分析DEM办理方案可观察终极用户体验的可用性、性能和质量。DEM办理方案旨在为用户旅程建模,跟踪愤怒点击、热图、单个元素响应时间等操作。该领域的厂商通常提供前端监控、错误跟踪和会话回放等功能。
  • 合成监控平台可协调大型探针群,这些探针可与网络属性和API端点执行脚本交互。这些合成探针用于对性能下降和其他功能性应用程序问题进行早期预警和检测。Catchpoint和Checkly等工具可在多个地点和地区自动执行这些模拟,并可部署专用代理,以支持远程边缘站点和专用数据中心。
  • 应用程序性能监控APM办理方案可提供应用程序依靠关系的具体视图、用户流跟踪以及通过业务关键绩效指标衡量微服务级性能。Honeycomb等APM平台向导者通过结构化、符合OTel尺度的跨度形式,并结合高卡式存储引擎,提供强大的事务跟踪功能。其他APM平台则更侧重于代码级监控,包括Sentry,该平台除跟踪外,还提供多语言SDK,用于捕获错误和相关堆栈跟踪、本地变量等。
  • ML模型监控和LLM运营工具有助于确保AI/ML应用程序的完备性和可靠性,尤其是在生产模型及其训练数据集随着时间推移而不断发展的情况下。模型监控平台可捕捉传统的康健指标(如CPU利用率和响应时间),以及模型性能(如评估PPV)、漂移(如训练和生产之间的统计差异)和数据质量等特定的人工智能问题。别的,领先的MLOps办理方案已开始扩展到LLM应用跟踪,为"多阶段"LLM事务的延迟、成本和准确性提供可视性。
  • 日记分析平台收集、汇总和分析来自各种来源的事件数据,包括服务器、应用程序、网络和装备。该领域的新兴公司包括Coralogix,它提供本地数据管道功能,可以或许在便宜的深度存储办理方案上运行。
  • 基础设施监控办理方案收集和分析指标,以监控物理和虚拟资产(如服务器、容器、网络装备、数据库、管理程序和存储)的可用性和资源利用率并发出警报。以基础设施为重点的可观测性工具包括Chronosphere,其与众不同之处部分在于其用于Prometheus的高性能M3后端,该后端是创始团队在Uber工作期间开发的。
  • 网络性能监控NPM综合利用各种数据源(如数据包捕获和装备日记),提供跨肴杂多云环境的网络性能整体视图。这些平台提供诊断工作流和取证数据,以确定网络性能下降和整体可靠性的根本缘故原由。
  • CI/CD可见性办理方案可提高端到端软件开发流程的可见性,包括作业持续时间、CI基础设施利用率、缺陷测试检测等。
  • AI-Ops与事件响应工具利用机器学习来检测异常、关联事件并确定问题的根本缘故原由。在下游,这些平台通过与可以或许排除故障和修复问题的自动化工具挂钩来协调事件响应流程。Moveworks等平台通过LLM驱动的虚拟代理提供智能知识搜索和自动化问题办理方案,而Rootly和Incident.io等初创公司则提供了一个框架,用于定义运行手册、整理相关信号和警报、会合团队协作、跟踪办理问题的步调以及事后报告。
  • 可观测性管道是管理遥测数据从源到目的地的收集、处理、丰富、转换和路由的办理方案。该领域的办理方案既可以作为独立代理(如Cribl),也可以作为更广泛的o11y套件的子组件(参见Coralogix的Streama或Chronosphere对Calyptia的收购)。
  • 可视化工具使用户可以或许创建和共享动态图表和遥测仪表盘,整合来自多个来源的数据,提供统一的系统视图。Grafana已成为现代应用程序事实上的尺度查询和可视化层,它提供了跨异构平台和环境统一数据的单一窗口。
  • 安全信息和事件管理(SIEM)办理方案可汇总和分析来自不同来源的安全事件数据,识别可能代表安全威胁或主动违规的模式,包括基于签名的系统可能无法检测到的复杂攻击。该领域的先进工具,如Exabeam和Anvilogic,可提供复杂的分析、人工智能驱动的威胁检测和下游事件响应。


描绘可观测性的未来随着应用架构的演变、遥测数据量的不断增长以及强大的新型人工智能模型的出现,o11y市场已做好了被颠覆的准备。我们认为,初创企业有巨大的机会打破现状,推动更成熟的企业顺应并跟上步调。他们将寻求以性能更强、成本效益更高的托管模式、简化的用户体验、智能分析和覆盖范围更广的角色和工作负载类型来创造空间。
固然本文强调了一些影响市场的趋势,但我们仍迫切希望看到2024年及以后的市场格局如何演变,以及出现哪些新的到场者和新的功能。


原文链接:https://casber.substack.com/p/observability-in-2024


往期回顾


网络安全搞平台化,可能吗?

ToC的安全赛道,活得下去吗?

不要信赖网安行业的大多数统计数据!!
炒作?警钟?警惕网安营销中的FUD宣传套路



关注「安全喵喵站」,后台回复关键词【报告】,即可获取网安行业研究报告精彩内容合集:
《网安供应链厂商成分分析及国产化替换指南》,《网安新兴赛道厂商速查指南》,《网安初创天使投资态势报告》,《全球网络安全创业加快器调研报告》《网安创业生态图》,《網安新興賽道廠商速查指南·港澳版》,《台湾资安市园地图》,《全球网络安全全景图》,《全球独角兽俱乐部行业全景图》,《全球网络安全创业生态图》
话题讨论,内容投稿,报告沟通,商务互助等,请接洽喵喵 hella@z1-sec.com。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

北冰洋以北

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表