#Flink常见故障 #大数据 #生产环境真实案例 #Flink #流式计算 #流批一体 #整理 #经验总结
说明:此篇总结Flink常见故障案例处理方案 联合自身经历 总结不易 +关注 +收藏 欢迎留言 专栏:Flink业务常见故障多案例解决方案 【1】任务运行常见故障 目录
【1】任务运行常见故障
Flink对接HBase任务运行一段时间后忽然中断
Flink对接kafka-写入数据倾斜,部分分区没有写入数据
Flink任务的日志目录增长太快,导致磁盘写满
Flink消费kafka任务停止一段时间后,任务无法重启
业务运行一段时间报InvalidAMRMToken from xxx
任务启动失败,报资源不足:Could not allocate all requires slots within timeout of xxx ms
算子的部分节点产生背压,其它节点正常
FlinkSQL获取数据格式为csv、json时遇到错误数据导致任务失败,报错Caused by:org.apache.flink.api.common.io.parseException: Row too short
Flink对接HBase、ES性能弱于kafka的组件时出现持续背压而且出现Full GC
Flink写kafka出现报错Failed to send data to Kafka: This server is not the leader for that topic-partition
Flink任务运行过程中出现报错netty.exception.RemoteTransportException
Flink任务运行过程中出现报错netty.exception.LocalTransportException
Flink任务运行过程sink端中对接kafka报错
Zookeeper leader倒换后Flink任务失败
Flink任务的taskmanager.out文件太大导致磁盘使用率过高
Flink提交任务下令实行错误NoSuchMethodError
Flink客户端实行flink下令报错ClusterRetrieveException
yarn-session创建Flink集群报错NoAuthException: KeeperErrorCode = NoAuth for /flink/application_xx
Flink提交任务下令实行错误ClassNotFoundException
【1】任务运行常见故障
Flink对接HBase任务运行一段时间后忽然中断
问题
Flink对接HBase, 观察Flink的运行日志发现,任务运行一段时间后持续打印以下日志:
RPC Server Kerberos principal name for service=ClientService is hbase/xxxx.xxxx.xxx.com
并没有出现其它错误。 缘故起因
客户在对接HBase过程中未在代码内部定期更新单子信息,导致任务会运行一段时间后等待登录 解决方法
需要在flink-conf.ymal设置文件中调整参数: