Re: 回复: flink使用StateBackend问题

2019-09-03 Thread Wesley Peng




on 2019/9/3 15:38, 守护 wrote:

org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Received late 
message for now expired checkpoint attempt 3 from 
24674987621178ed1a363901acc5b128 of job fd5010cbf20501339f1136600f0709c3.
请问这个是什么问题呢?


可以根据这些失败的task的id去查询这些任务落在哪一个taskmanager上,经过排查发现,是同一台机器,通过ui看到该机器流入的数据明显比别的流入量大 
因此是因为数据倾斜导致了这个问题,追根溯源还是下游消费能力不足的问题


also reference:
https://juejin.im/post/5c374fe3e51d451bd1663756


Re: 回复: flink使用StateBackend问题

2019-09-03 Thread Yun Tang
Hi


  1.  Checkpoint 超时时间设置是多少(是默认的10min么),如果超时时间太短,容易checkpoint failure
  2.  所有的subtask都是n/a 么,source 
task的checkpoint没有rocksDb的参与,与使用默认的MemoryStateBackend其实是一样的,不应该source 
task也没有完成checkpoint(除非一直都拿不到StreamTask里面的锁,一直都在process element)
  3.  作业的反压情况如何,是不是使用RocksDB时候存在严重的反压(back 
pressure)情况?如果作业反压的话,barrier一直都流不到下游,容易造成checkpoint超时。

建议分享一下作业webUI上的checkpoint 信息。

祝好
唐云

From: Wesley Peng 
Sent: Tuesday, September 3, 2019 15:44
To: user-zh@flink.apache.org 
Subject: Re: 回复: flink使用StateBackend问题



on 2019/9/3 15:38, 守护 wrote:
> org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Received late 
> message for now expired checkpoint attempt 3 from 
> 24674987621178ed1a363901acc5b128 of job fd5010cbf20501339f1136600f0709c3.
> 请问这个是什么问题呢?

可以根据这些失败的task的id去查询这些任务落在哪一个taskmanager上,经过排查发现,是同一台机器,通过ui看到该机器流入的数据明显比别的流入量大
因此是因为数据倾斜导致了这个问题,追根溯源还是下游消费能力不足的问题

also reference:
https://juejin.im/post/5c374fe3e51d451bd1663756