from:"\"kong\""

flink 反压导致checkpoint超时，从而导致任务失败问题

2022-03-03 文章 kong

hello,我最近遇到一个问题：我通过flink消费kafka数据，job 图大概是这样的：Source -> map -> filter -> flatMap -> Map -> Sink 在一瞬间kafka的producer端会产生大量的数据，导致flink无法消费完，我的checkpoint设置的是10分钟；最后会产生Checkpoint expired before completing.的错误，导致job重启，从而导致从上一个checkpoint恢复，然后重复消费数据，又导致checkpoint超时，死循环了。不知道有什么好办法解决该问题。多谢~

flink修改sink并行度后，无法从checkpoint restore问题

2021-10-20 文章 kong

hi，我遇到flink修改sink并行度后，无法从checkpoint restore问题 flink 版本： 1.13.1 flink on yarn DataStream api方式写的java job 试验1：不修改任何代码，cancel job后，能从指定的checkpoint恢复 dataStream.addSink(new Sink(config)).name("").uid(""); 试验2：只修改sink端的并行度，job无法启动，一直是Initiating状态 dataStream.addSink(new Sink(confi

flink1.12的kafka source 和 OperatorCoordinator

2021-01-08 文章 hao kong

hello，我一直在关注FLIP-27实现的全新source，更新1.12后发现了已经有新的kafkasource实现，目前在使用kafkasource与coordinator通信的时候遇到了困难。我创建了一个kafkasource和对应的operatorCoordinator，并在source上create了一个reader，在operatorCoordinator的handleEventFromOperator上打了一个断点，在启动的时候能够成功收到注册reader的消息，但是无法收到其他通过sourceReaderContext的sendSourceEventToCoordinato

Re: 含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

2020-09-27 文章 hao kong

是DataStream API，主要是从用户不同行为属性，例如支付，访问等在不同的topic里，union后根据session的窗口聚合，获取到根据userId和sessionId两类型数据，分别是用户全部行为和用户单次访问的全部行为。处理全实时数据没问题，但是如果处理带有历史数据就会遇到每一个topic内历史数据量不同，之前的解决方案是分为批处理和流处理两步，现在想把这两步合并起来，就会出现watermark被推高，丢掉快流的数据。其实不光是丢数据的问题，如果按照快流的watermark来设置的话，也会出现，大量数据缓存在state里的情况，所以想做根据时间戳控制source读取速度。

Re: 含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

2020-09-27 文章 hao kong

termark（这个要求单分区内部乱序不能太大）。后续算子的watermark是会基于输入算子所有并发实例的watermark取小的，所以貌似也不存在你说的问题。 > > > > hao kong 于2020年9月27日周日下午5:16写道： > > > >> hi > >> 感谢各位，pnowoj...@apache.org为我提供了一个FLIP， > >> > >> > https://cwiki.apache.org/confluence/display/FLINK

Re: 含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

2020-09-27 文章 hao kong

要自己实现高可用。赵一旦于2020年9月21日周一下午5:50写道： > 的确问题没说明白，貌似flink不会存在类似问题。 > > hao kong 于2020年9月16日周三下午6:45写道： > > > 十分感谢，我尝试实现一下，看看能不能通过processfuncton和反压机制配合实现一下。 > > > > Congxian Qiu 于2020年9月16日周三下午1:55写道： > > > > > Hi > > > 没有太明白你这里为什么数据

Re: 含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

2020-09-16 文章 hao kong

jects/flink/flink-docs-release-1.11/dev/event_timestamps_watermarks.html#watermark-strategies-and-the-kafka-connector > Best, > Congxian > > > hao kong 于2020年9月16日周三上午10:24写道： > > > hello，我有一份来自多个Kafka-source的工作。它们都包含某些历史数据。如果使用events-time > > window，它将导致数据较少的source通过water-mark覆盖数

含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

2020-09-15 文章 hao kong

hello，我有一份来自多个Kafka-source的工作。它们都包含某些历史数据。如果使用events-time window，它将导致数据较少的source通过water-mark覆盖数据更多的source。目前我能想到的方案是用一个在source上的调度器，通过redis或者zookeeper缓存每一个source下两条数据，统一比较，时间小的先进入接下来的处理流程，实现起来比较复杂，各位大佬有什么好的办法吗？十分感谢。

flink 反压导致checkpoint超时，从而导致任务失败问题

flink修改sink并行度后，无法从checkpoint restore问题

flink1.12的kafka source 和 OperatorCoordinator

Re: 含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

Re: 含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

Re: 含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

Re: 含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

含有多个kafka-source的job里如果用events_time作为时间的话，如何解决快流通过水印覆盖漫流的情况。

8 matches

Site Navigation

Mail list logo

Footer information