Flink checkpoint 速度慢问题请教

Jacob Fri, 26 Feb 2021 22:15:13 -0800

Hi All,

生产环境有一个Job,在hadoopA集群运行稳定正常，checkpoint速度也很快（checkpoint间隔时间是30s,每一个checkpoint大小几十kb，做一次checkpoint耗时为毫秒级别）
                                        
相同的job，代码没有任何变化，将job迁移到另一个hadoopB集群，checkpoint就非常慢，做一次耗时10几分钟，导致job运行瘫痪，大部分时间和资源都在做checkpoint，而没有处理我们的业务逻辑。


         
目前我所了解到的这两个hadoop集群唯一不同的是，A集群是SSD，B集群机器是机械硬盘。


job的checkpoint存储是在hdfs，是否是因为磁盘性能问题，导致B集群checkpoint速度过慢呢？是否应该使用内存作为checkpoint存储？请指教。



-----
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Flink checkpoint 速度慢问题请教

回复