数据仓库与分析Confluent Cloud Kafka 可观测性最佳实践

诗林发表于 5 天前

Confluent Cloud Kafka 可观测性最佳实践

Confluent Cloud 介绍

Confluent Cloud 是一个完全托管的 Apache Kafka 服务，提供高可用性和可扩展性，旨在简化数据流处置惩罚和及时数据集成。用户可以轻松创建和管理 Kafka 集群，而无需担心根本设施的维护和管理。Confluent Cloud 支持多种数据源和目标，允许用户在云环境中实现数据流的无缝传输和处置惩罚。此外，它还提供强大的工具和功能，如 Schema Registry、Kafka Connect 和 KSQL，使开辟者可以或许快速构建和摆设流处置惩罚应用步调。通过 Confluent Cloud，企业可以更高效地利用及时数据，推动业务创新和数字化转型。
Confluent Cloud 旨在为开辟者和企业提供一种简朴、高效的方式来构建、摆设和管理及时数据管道和流式应用步调。以下是 Confluent Cloud 的几个关键特点：

[*]完全托管：Confluent Cloud 负责处置惩罚 Kafka 集群的维护和管理工作，包罗设置、扩展、更新和故障规复，让用户可以专注于应用步调的开辟。
[*]高可用性：提供高可靠性和容错本领，确保数据流和应用步调的稳定运行。
[*]可扩展性：根据需求自动或手动扩展资源，轻松应对流量高峰。
[*]安全性：提供加密、身份验证和授权机制，保护数据安全和隐私。
[*]性能优化：自动优化性能，包罗负载平衡和分区管理，以提高数据处置惩罚效率。
[*]成本效益：按利用量付费，无需预先投资昂贵的硬件和维护成本。
可观测性对于 Confluent Cloud 尤为告急，它可以或许提供对数据流和体系性能的深入洞察，及时跟踪其性能指标，确保数据流的稳定性和可靠性，及时发现并办理潜在问题，优化资源分配，并保障业务一连性。通过监控，可以得到关键洞察，好比流量模式、耽误、错误率等，从而资助维护服务质量，防备体系故障，并支持数据驱动的决策制定。
观测云

观测云是一款专为 IT 工程师打造的全链路可观测产物，它集成了根本设施监控、应用步调性能监控和日记管理，为整个技能栈提供及时可观察性。这款产物可以或许资助工程师全面了解端到端的用户体验追踪，了解应用内函数的每一次调用，以及全面监控云时代的根本设施。此外，观测云还具备快速发现体系安全风险的本领，为数字化时代提供安全保障。
摆设 DataKit

DataKit 是一个开源的、跨平台的数据收集和监控工具，由观测云开辟并维护。它旨在资助用户收集、处置惩罚和分析各种数据源，如日记、指标和事件，以便进行有效的监控和故障排查。DataKit 支持多种数据输入和输出格式，可以轻松集成到现有的监控体系中。
登录观测云控制台，在集成 -> DataKit 选择对应安装方式，当前接纳 Linux 主机摆设 DataKit 。

https://i-blog.csdnimg.cn/img_convert/3f868c4aafa822ef8751691447c5c4f9.png
指标采集

Confluent Cloud 指标集成设置

1、登陆 Confluent Cloud ，在 ADMINISTRATION 下选择 Metrics 。

https://i-blog.csdnimg.cn/img_convert/256893b89831950f6ee13b9f8ef81aea.png

https://i-blog.csdnimg.cn/img_convert/2fcf99069e3e8329ac7475b91ae84991.png
2、在 Metrics 页点击按钮 New integration ，选择监控类型 Prometheus 。

https://i-blog.csdnimg.cn/img_convert/1c5a0075b1ed12e5cc1fa8b5d7645686.png
3、点击 Generate Cloud API key 按钮，生成 API Key 。
4、Resources 选择 All Kafka clusters，生成 Prometheus 的 scrape_configs 。
scrape_configs:
- job_name: Confluent Cloud
scrape_interval: 1m
scrape_timeout: 1m
honor_timestamps: true
static_configs:
   - targets:
   - api.telemetry.confluent.cloud
scheme: https
basic_auth:
   username: H5BO.....
   password: RDCgMwguHMy.....
metrics_path: /v2/metrics/cloud/export
params:
   "resource.kafka.id":
   - lkc-xxxx
5、点击页面 Copy 按钮进行内容复制。
DataKit 采集器设置

由于 Confluent Cloud 可以或许直接暴露 metrics url ，所以可以直接通过 prom 采集器进行采集。
进入 DataKit 安装目录下的 conf.d/prom ，复制 prom.conf.sample 为 confluent_cloud.conf 。
cp prom.conf.sample confluent_cloud.conf
调整 confluent_cloud.conf 内容如下：
# {"version": "1.61.0-testing_testing-graphite-metric-set", "desc": "do NOT edit this line"}

[]
## Exporter URLs.
urls = ["https://api.telemetry.confluent.cloud/v2/metrics/cloud/export?resource.kafka.id=lkc-xxxx"]

source = "confluent_cloud"

## Add HTTP headers to data pulling (Example basic authentication).

Authorization = "Basic QkXXXXXXXXXXXX"

interval = "60s"
调整参数阐明：

[*]urls: 将 Confluent Cloud 复制的内容调整下，拼接成 url ，如果有多个 kafka 资源，则用逗号分割。
[*]Authorization: 将用户名和密码转化成 Basic Authorization 格式，可以利用转化工具在线生成Basic Auth、http根本认证密码生成、 basic access authentication在线生成、Basic Auth密码在线解密--查错网。
[*]interval: 调整为 60s ，由于 Confluent Cloud API 限制，这个值不能小于 60s ，低于这个值将导致无法采集数据。
关键指标

confluent 指标集
指标名称描述单位kafka_server_active_connection_count活跃认证毗连数countkafka_server_consumer_lag_offsets组成员提交的偏移量与分区的高水位标志之间的滞后量。countkafka_server_partition_count分区数量countkafka_server_received_bytes从网络吸收的客户数据字节数的增量计数。每个样本是自上一个数据样本以来吸收的字节数。计数每60秒采样一次。bytekafka_server_received_records吸收的记录数的增量计数。每个样本是自上一个数据样本以来吸收的记录数。计数每60秒采样一次。countkafka_server_request_bytes指定哀求类型通过网络发送的总哀求字节数的增量计数。每个样本是自上一个数据点以来发送的字节数。计数每60秒采样一次。bytekafka_server_request_count通过网络吸收的哀求数的增量计数。每个样本是自上一个数据点以来吸收的哀求数。计数每60秒采样一次。countkafka_server_response_bytes指定响应类型通过网络发送的总响应字节数的增量计数。每个样本是自上一个数据点以来发送的字节数。计数每60秒采样一次。bytekafka_server_rest_produce_request_bytesKafka REST产生调用发送的总哀求字节数的增量计数。bytekafka_server_retained_bytes集群保存的字节数当前计数。计数每60秒采样一次。bytekafka_server_sent_bytes通过网络发送的客户数据字节数的增量计数。每个样本是自上一个数据点以来发送的字节数。计数每60秒采样一次。bytekafka_server_sent_records发送的记录数的增量计数。每个样本是自上一个数据点以来发送的记录数。计数每60秒采样一次。countkafka_server_successful_authentication_count乐成认证的增量计数。每个样本是自上一个数据点以来乐成认证的数量。计数每60秒采样一次。count 场景视图

登录观测云控制台，点击「场景」 -「新建仪表板」，输入 “Confluent Cloud ”，选择 “Confluent Cloud 监控视图”，点击 “确定” 即可添加内置视图。

https://i-blog.csdnimg.cn/img_convert/30a7b230758d9a55013593c9233a1518.png
监控器（告警）

Kafka 消息堆积

滞后量过大，表现消耗者无法及时处置惩罚消息。

https://i-blog.csdnimg.cn/img_convert/cbba67f95481d1436b13b3784e110bf9.png
Kafka 分区创建太高

每个分区都会占用肯定的磁盘空间，并且必要维护其状态信息。过多的分区会增加磁盘和网络I/O的负载，进而导致 Kafka 的性能下降。

https://i-blog.csdnimg.cn/img_convert/e2470c6dfb2b2c4ecc3ce09743004550.png
Kafka 服务认证乐成次数过高报警

认证次数过高，可能存在帐号被攻击的活动。

https://i-blog.csdnimg.cn/img_convert/029e02cc618bf640af5797d561e1c7e5.png
总结

Confluent Cloud 是一个由 Confluent 提供的全托管 Apache Kafka 服务，通过观测云对 Confluent Cloud 进行全面可观测性，及时跟踪其性能指标，确保数据流的稳定性和可靠性，及时发现并办理潜在问题，优化资源分配，并保障业务一连性。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

ToB企服应用市场:ToB评测及商务社交产业平台's Archiver

Confluent Cloud Kafka 可观测性最佳实践