Hi All, 生产环境有一个Job,在hadoopA集群运行稳定正常,checkpoint速度也很快(checkpoint间隔时间是30s,每一个checkpoint大小几十kb,做一次checkpoint耗时为毫秒级别) 相同的job,代码没有任何变化,将job迁移到另一个hadoopB集群,checkpoint就非常慢,做一次耗时10几分钟,导致job运行瘫痪,大部分时间和资源都在做checkpoint,而没有处理我们的业务逻辑。
目前我所了解到的这两个hadoop集群唯一不同的是,A集群是SSD,B集群机器是机械硬盘。 job的checkpoint存储是在hdfs,是否是因为磁盘性能问题,导致B集群checkpoint速度过慢呢?是否应该使用内存作为checkpoint存储?请指教。 ----- Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/