这个题目排除了很久,其中更换了Flink版本,也更换了Hadoop版本不停无法解决,JobManager跑着跑着就非常退出了。资源管理器上是提示运行结束,运行状态是被Kill掉。
网上搜了一圈,都说内存不足、资源不足,设置错误。但是报错非常不明显。
末了终于看到了一条警告日志。
是客户端与jobmanager心跳超时,协商退出的jobmanager。后面就开始取消任务,接纳资源逐步退出。除了这条关键退出日志,就没有明显的报错了。
- 2024-10-24 17:41:15,073 WARN org.apache.flink.runtime.dispatcher.MiniDispatcher [] - The heartbeat from the job client is timeout and cancel the job cc0f9dcadc79ee561632518539baf513. You can adjust the heartbeat interval by 'client.heartbeat.interval' and the timeout by 'client.heartbeat.timeout'
复制代码 其实提交Flink on Yarn的Pro-Job程序,从开始到结束都有心跳非常的错误。末了超过默认的超时时间180s就开始协商退出了,所以程序每次跑3分钟后就开始退出了。
- 2024-10-24 17:40:15,725 ERROR org.apache.flink.runtime.rest.handler.job.JobClientHeartbeatHandler [] - Exception occurred in REST handler: Request did not match expected format JobClientHeartbeatRequestBody.
复制代码 只在yarn-per-job与yarn-application模式下会触发,session模式下不会。因为session模式是不停存在jobmanager,他会接受任何客户端的任务。不必要用完就释放资源。
Flink 1.13.1、Flink1.15.2、Flink1.16.3都不存在以上题目
但是1.17.1和1.18.1、1.20都存在该题目。应该是1.17以上都存在
某大神说的1.17引入新的心跳机制:
- The issue you're encountering is related to a new heartbeat mechanism
- between the client and job in Flink-1.17. If the job does not receive any
- heartbeats from the client within a specific timeout, it will cancel itself
- to avoid hanging indefinitely.
复制代码- To address this, you have two options:
- 1. Run your job in detached mode by adding the -d option in your command
- line
- 2. Increase the client heartbeat timeout setting to a larger value, the
- default value is 180 seconds
复制代码 解决办法总结了下,大概三种
1、用旧点的Flink版本:例如Flink1.16.3以下;
2、分离模式,加 -d参数;
3、增长心跳超时时间;这个其实无法根本解决;
新版本还是多坑,其实很有一个可能flink1.17开始去除java代码,导致的bug题目
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |