Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 LakeShen
wait_operator_state_"相关。最近fix的 > > https://issues.apache.org/jira/browse/FLINK-13063 > > 问题,正是暂时解决一致性问题,可以考虑cherry pick相关的fix重新部署你们的Flink作业,观察该问题是否还会复现。 > > > > 祝好 > > 唐云 > > ____________ > > From: 戴嘉诚 > > Sent: Thursday, Jul

Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 戴嘉诚
apshotStrategy 88行左右的代码[1]是对list > > state进行deepcopy,但是你告诉我的state descriptor却是MapStateDescriptor > > Long>,这二者之间明显是对不上的,还请再校验一下你的代码。异常栈出现在checkpoint同步阶段的内容拷贝时的ConcurrentModification,这个确实是很奇怪的,所以还需要麻烦回答一下下面几个问题: > > > > * 这个问题是必现的么?作业failover或者重新提交之后也会出现么? > > * 由于opera

Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 Yun Tang
_state_"相关。最近fix的 https://issues.apache.org/jira/browse/FLINK-13063 问题,正是暂时解决一致性问题,可以考虑cherry pick相关的fix重新部署你们的Flink作业,观察该问题是否还会复现。 祝好 唐云 From: 戴嘉诚 Sent: Thursday, July 25, 2019 21:07 To: user-zh Subject: Re: Re: Flink checkpoint 并发问题 Hi 唐云 这个问题在这个job上是必现的,即使是fai

Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 戴嘉诚
izeState的实现)。另外,这个operator > state的申明以及相关的使用地方也最好提供一下。 > > [1] > https://github.com/apache/flink/blob/480875f045a9777877ed1a90f9e0c6e01b7e03c9/flink-runtime/src/main/java/org/apache/flink/runtime/state/DefaultOperatorStateBackendSnapshotStrategy.java#L88 > > 祝好 > 唐云 > __

Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 Yun Tang
-runtime/src/main/java/org/apache/flink/runtime/state/DefaultOperatorStateBackendSnapshotStrategy.java#L88 祝好 唐云 From: 戴嘉诚 Sent: Thursday, July 25, 2019 19:26 To: user-zh Subject: Re: Re: Flink checkpoint 并发问题 hi 你好,我用的flink是1.8,但是是根据hadoop 2.7.3.2.6.5.0-292 自行打

Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 戴嘉诚
ink版本是什么?这个operator 里面的operator state descriptor是什么? > > 祝好 > 唐云 > > From: 戴嘉诚 > Sent: Thursday, July 25, 2019 19:04 > To: user-zh@flink.apache.org > Subject: Re: Re: Flink checkpoint 并发问题 > > 这个用window不符合这个场景,因为是取每时每刻的最近半小时,而window只能

Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 戴嘉诚
在flink源码中org.apache.flink.streaming.examples.windowing.TopSpeedWindowing > > -- > athlon...@gmail.com > > > *发件人:* 戴嘉诚 > *发送时间:* 2019-07-25 18:45 > *收件人:* user-zh > *主题:* Re: Re: Flink checkpoint 并发问题 > > > 这个应该不行,因为这个ttl是删除整个map状态,而我是需要最近半小时内的数据量,所以这个map状态,如果一直有数据写入,我就只需要获取最近的半小时,超过的就在

Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 athlon...@gmail.com
那你用window和evictor 不可以吗? 类似这样,因为我理解你的业务需求可以用这个来实现 在flink源码中org.apache.flink.streaming.examples.windowing.TopSpeedWindowing athlon...@gmail.com 发件人: 戴嘉诚 发送时间: 2019-07-25 18:45 收件人: user-zh 主题: Re: Re: Flink checkpoint 并发问题 这个应该不行,因为这个ttl是删除整个map状态,而我是需要最近半小时内的数据量,所以这个map状态,如果一直有数据写入,我就只需要获取最近的半

Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 athlon...@gmail.com
其实你可以不用自己删除.使用TTL设置短一些时间,试试 athlon...@gmail.com 发件人: 戴嘉诚 发送时间: 2019-07-25 18:24 收件人: user-zh 主题: Re: Flink checkpoint 并发问题 你好,这个参数我没有设置过,对于checkpoint,我只是设置了rockDB增量写入,其他都没有设置了 athlon...@gmail.com 于2019年7月25日周四 下午6:20写道: > setMaxConcurrentCheckpoints 这个参数你设置过么? > > > > athl

Re: Re: Flink checkpoint 并发问题

2019-07-25 文章 athlon...@gmail.com
modifications. Enabling of this feature will increase memory consumption then. Asynchronous snapshotting does not have this problem. 我找到这段信息,感觉和你的操作类似 athlon...@gmail.com 发件人: 戴嘉诚 发送时间: 2019-07-25 18:24 收件人: user-zh 主题: Re: Flink checkpoint 并发问题 你好,这个参数我没有设置过,对于checkpoint,我只是设置了rockDB增量写入,其他都没有设置了

Re: Flink checkpoint 并发问题

2019-07-25 文章 戴嘉诚
你好,这个参数我没有设置过,对于checkpoint,我只是设置了rockDB增量写入,其他都没有设置了 athlon...@gmail.com 于2019年7月25日周四 下午6:20写道: > setMaxConcurrentCheckpoints 这个参数你设置过么? > > > > athlon...@gmail.com > > 发件人: 戴嘉诚 > 发送时间: 2019-07-25 18:07 > 收件人: user-zh > 主题: Flink checkpoint 并发问题 > 大家好: > >

Re: Flink checkpoint 并发问题

2019-07-25 文章 athlon...@gmail.com
而且,我印象中mapstate操作不是线程安全的,需要你自己加锁 athlon...@gmail.com 发件人: 戴嘉诚 发送时间: 2019-07-25 18:07 收件人: user-zh 主题: Flink checkpoint 并发问题 大家好: 我这里有个Job,会经常不定时的挂掉重启,具体的异常日志为一下,大致是checkpoint的同步失败的

Re: Flink checkpoint 并发问题

2019-07-25 文章 athlon...@gmail.com
setMaxConcurrentCheckpoints 这个参数你设置过么? athlon...@gmail.com 发件人: 戴嘉诚 发送时间: 2019-07-25 18:07 收件人: user-zh 主题: Flink checkpoint 并发问题 大家好: 我这里有个Job,会经常不定时的挂掉重启,具体的异常日志为一下,大致是checkpoint的同步失败的