Closed yebai1105 closed 2 years ago
The issue had no activity for 30 days, mark with Stale label.
Closed as stale.
The development of the Pulsar Flink Connector happens at https://github.com/apache/flink. If it's still relevant, please open an issue at https://issues.apache.org/jira/projects/FLINK/issues.
1、操作: 线上一共9台broker机器,顺序操作kill -9 xxx.129、xxx.130、xxx.131这三台机器broker进程(操作时间:2021-11-05 16:05) 2、集群与使用版本信息 bookie 堆6G,直接内存80G,broker 堆6G,直接内存256G 客户端:使用pulsar-flink-connector pulsar-flink-connector版本:1.13.1 flink版本1.13.2 服务端:2.8.1 3、总体现象: flink任务重启,重启后checkpoint无法提交,且在达到checkpoint重试失败容忍值后(本次测试flink任务cp容忍值是10次),任务全局重启,任务重启后由于flink开始追数据流量突增(bookie从平均600M/s到最高2.3G/s,broker从平均300M/s到最高1.1G/s),Bookie集群(9台机器)陆续由于内存溢出全部挂掉。另外在bookie内存溢出全部全部挂掉之后,再拉起bookie进程,再启动flink任务,flink任务总是超时报错起不来。
4、服务端现象分析 4.1 broker监控: 2021-11-05 16:05后客户端任务重启,重启后无法提交checkpoint,在110分钟左右达到checkpoint失败最大容忍值后(任务checkpoint的超时时间为10min),17:56任务全局重启,重启后flink任务开始由于延迟开始追数据,流量翻倍(还在服务端能够承接流量范围内),后续又陆续导致bookie节点全部挂掉。
4.2 bookie监控
bookie日志中出现内存溢出日志:
5、客户端现象分析 5.1.当开始kill broker机器时,任务出现connection closed. 5.2 任务尝试重连被kill掉的节点,但是无法建立连接,一直报错。(部分producer尝试重连后被关闭) 5.3 部分producer在尝试重连后,出现消息发送超时 5.4 zhuyelan-30-42884这个producer向10.197.76.194这台broker建立连接。但是无后续消息发送日志。 5.5 新的producer生成 5.6 任务在重启过程中,有部分task是active状态,此时会抛出无法获取元数据的异常。
6、疑问: 6.1 bookie直接内存从16G调整到80G之后依旧内存溢出,这里流量突增并不是非常高(bookie从平均600M/s到最高2.3G/s,broker从平均300M/s到最高1.1G/s),有什么建议可以防止bookie集群整个挂掉 6.2 pulsar-flink connector为什么在broker故障之后会出现无法提交checkpoint 6.3 在bookie内存溢出全部全部挂掉之后,再拉起bookie进程,再启动flink任务,客户端任务总是报错超时起不来
附: bookeeper.conf
broker.conf