subject:"checkpoint\?\?\?\?\?\?\?\?\?\?\?\?\?\?"

Re: 回复：流处理任务中checkpoint失败

2020-08-27 文章 Congxian Qiu

Hi 从代码暂时没有看出问题，不确定迭代作业的 checkpoint 是否有特殊的地方，我抄送了一个对迭代这块更了解的人（Yun Gao），或许他在这块有一些建议 Best, Congxian Yun Tang 于2020年8月27日周四下午5:10写道： > Hi Robert > > 你的两个source > firstSource和secondSource是自己实现的么，一种怀疑是source在没有数据时持锁[1][2]导致checkpoint > barrier并没有下发。 > 建议使用jstack查看在没有数据下发时，so

Re: 回复：流处理任务中checkpoint失败

2020-08-27 文章 Yun Tang

Hi Robert 你的两个source firstSource和secondSource是自己实现的么，一种怀疑是source在没有数据时持锁[1][2]导致checkpoint barrier并没有下发。建议使用jstack查看在没有数据下发时，source相关task的java调用栈，观察是否存在等待锁释放 [1] https://github.com/apache/flink/blob/162e3ead63e5766cf2116af09922a88537889e53/flink-streaming-java/src/main/java/org/apache/flink

??????????????????UV??????????????MapState??BloomFilter,??checkpoint????????????????????

2020-08-26 文章 x

UV??MapStateBloomFilter??,checkpoint??bloomMapState

?????? ????????????checkpoint????

2020-08-26 文章 Robert.Zhang

hihu.com/p/87131964 Best, Congxian Robert.Zhang <173603...@qq.comgt; ??2020??8??21?? 6:31?? gt; Hello all, gt; iterative stream job gt; ????checkpoint??????checkpoint gt; state

Re: flink checkpoint导致反压严重

2020-08-26 文章 Congxian Qiu

Hi 对于开启 Checkpoint 之后导致反压的情况，如果希望在现在的基础上进行优化的话，则需要找到反压的原因是什么，可以尝试从最后一个被反压的算子开始排查，到底什么原因导致的，排查过程中，或许 Arthas[1] 可以有一些帮助另外比较好奇的是，为什么反压会导致你的作业挂掉呢？作业挂掉的原因是啥呢 [1] https://github.com/alibaba/arthas Best, Congxian Yun Tang 于2020年8月26日周三上午11:25写道： > Hi > > 对于已经改为at least once的chec

Re: 流处理任务中checkpoint失败

2020-08-26 文章 Congxian Qiu

Hi 按理说，数据和 barrier 没有依赖关系的，但从你的描述看，没有数据的时候，无法接受到 barrier，或许你可以分享一下你的代码（可以把业务逻辑进行简化），或许大家可以帮你看看 Best, Congxian Robert.Zhang <173603...@qq.com> 于2020年8月26日周三上午11:43写道： > Hi Congxian, > > 开了更多日志观察了下，是由于iteration source的barrier无法接收到导致的。 > 该barrier无法接收到，导致下游也无法拿到由该operator传递的ba

??????????????????checkpoint????

2020-08-25 文章 Robert.Zhang

Hi Congxian, iteration source??barrier?? ??barrier??operator??barrier??checkpoint?? ??operator

Re: flink checkpoint导致反压严重

2020-08-25 文章 Yun Tang

Hi 对于已经改为at least once的checkpoint，其在checkpoint时对于作业吞吐的影响只有task 同步阶段的snapshot，这个时间段的snapshot由于与task的主线程的数据访问持有同一把锁，会影响主线程的数据处理。但是就算这样，我也很怀疑checkpoint本身并不是导致早上10点高峰期无法运行的罪魁祸首。使用异步的，支持增量的state backend （例如RocksDBStateBackend）会大大缓解该问题。建议排查思路： 1. 检查使用的state backend类型 2. 检查是否存在sync阶段checkpoint

Re: flink checkpoint导致反压严重

2020-08-25 文章 LakeShen

Hi zhanglachun, 你们使用 checkpoint 的方式是什么？是否有 full gc 的情况呢 Best, LakeShen 徐骁于2020年8月26日周三上午2:10写道： > input > .keyBy() > .timeWindow() > .reduce(new MyReduceFunction(), new MyProcessWindowFunction()); > > 可以看一下官网的 reduce 用法, 可以在数据进入窗口的时候进行处理(排序), 而没必要等到 window 结束后再进行这样可

Re: flink checkpoint导致反压严重

2020-08-25 文章徐骁

input .keyBy() .timeWindow() .reduce(new MyReduceFunction(), new MyProcessWindowFunction()); 可以看一下官网的 reduce 用法, 可以在数据进入窗口的时候进行处理(排序), 而没必要等到 window 结束后再进行这样可以把时间分散到 window 里面

flink checkpoint导致反压严重

2020-08-25 文章 zhanglachun

大佬们好,我一个flink任务,计算一分钟内的某项几项指标的中位数,总共5个指标,因为中位数计算需要全窗口数据排序,所以计算比较复杂,现在遇到的问题的是一旦开启checkpoint任务就从source端开始反压严重,但关闭checkpoint就正常运行. 目前优化的步骤有: 1.语义放弃exactlyonce 改到atleast 2.分析发现keyby过程中有数据倾斜,已改成分布聚合,在第一轮聚合中key后添加随机数,在去除key后缀进行第二轮聚合 3.计算过程中使用RoaringBitmap作为中间数据缓存容器,最大限度减少内存损耗 4.增大并行度,提交时增大-yjm -ytm 内存配

回复：流处理任务中checkpoint失败

2020-08-25 文章 Robert.Zhang

Hi Congxian, 测试的时候数据量是很小的，cpu使用比较低的，让我比较奇怪的一点是我杀掉任务重启的话，有时候能成功进行checkpoint，看了下日志，就是这个iteration source成功执行了snapshot，发起了barrier，进而影响到后续operator的checkpoint。失败的时候是该source无法snapshot，直至超时。因为flink这一块，iteration是由head tail组成，是一个比较特殊的stream task，目前还没有看到jm这边是如何对此进行处理的。这个iteration source其实是由其他source

Re: 流处理任务中checkpoint失败

2020-08-25 文章 Congxian Qiu

Hi 对于 checkpoint 超时失败的情况，需要看一下具体的原因，对于 source 没有完成的话，或许看一下相应并发（没完成 snapshot 的 source）的 CPU 占用情况，以及相应逻辑是否卡在哪里或许能看到一些线索。source 是收到 JM 的 rpc 后触发的 snapshot，所以这里相比其他的算子，不需要考虑 barrier 对齐的事情。 Best, Congxian Robert.Zhang <173603...@qq.com> 于2020年8月25日周二上午12:58写道： > 看了日志，是由于部分checkpoint 超时未

回复：流处理任务中checkpoint失败

2020-08-24 文章 Robert.Zhang

看了日志，是由于部分checkpoint 超时未完成，web界面上 iteration source的checkpoint始终无法完成。官方文档对于在iterative stream的checkpoint没有更详细的说明。对于loop中的数据丢失可以理解。但是checkpoint无法成功不是特别能理解。按照我对于chandylamport算法的理解，上游operator的barrier应该是直接给到了下游，不应该存在无法拿到barrier的情况才对。不知道这是什么原因导致的 ---原始邮件--- 发件人: "Congxian Qiu&

Re: 流处理任务中checkpoint失败

2020-08-24 文章 Congxian Qiu

Hi 从报错 ”Exceeded checkpoint tolerable failure threshold“ 看，你的 checkpoint 有持续报错，导致了作业失败，你需要找一下为什么 checkpoint 失败，或许这篇文章[1] 可以有一些帮助另外从配置看，你开启了 unalign checkpoint，这个是上述文章中暂时没有设计的地方。 [1] https://zhuanlan.zhihu.com/p/87131964 Best, Congxian Robert.Zhang <173603...@qq.com> 于2020年8月21日周五下

????????????checkpoint????

2020-08-21 文章 Robert.Zhang

Hello all, iterative stream job checkpoint??checkpoint state k??org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold

Re: flink sql 如何指定之前的checkpoint执行

2020-08-18 文章 Congxian Qiu

Hi 如果你的算子有改变的话，想从 checkpoint/savepoint 恢复，需要添加 `--allowNonRestoredState`，这样可以忽略掉那些不在新 job 中的算子（就算逻辑一样，uid 不一样也会被忽略掉的），具体的可以参考文档[1] [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/state/savepoints.html#what-happens-if-i-delete-an-operator-that-has-state-from-my-job Best

Re: flink sql 如何指定之前的checkpoint执行

2020-08-18 文章 JasonLee

hi 可以参考这篇文章https://mp.weixin.qq.com/s/Vl6_GsGeG0dK84p9H2Ld0Q 在cancel的时候触发一个savepoint 修改完SQL从savepoint恢复任务 -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink sql 如何指定之前的checkpoint执行

2020-08-18 文章 superainbower

hi，大家好，我遇到个问题，执行一个sql，作了checkpoint，现在sql中加了where条件，但是insert select 的值都没变，想指定之前的checkpoint继续执行，但是会报错，cannot map checkpoint state for operator *** to the new programe 是不是因为sql改变了，算子id就变了找不到了，这个有什么办法吗

Re: 请教关于Flink算子FINISHED状态时无法保存Checkpoint的问题

2020-08-16 文章 Congxian Qiu

这个问题和下面这个问题[1] 重复了，在另外的邮件列表中已经有相关讨论 [1] http://apache-flink.147419.n8.nabble.com/Flink-FINISHED-Checkpoint-td6008.html Best, Congxian yulu yang 于2020年8月14日周五下午1:05写道： > 对了，我这个flink作业和和分组都是新创建，不存在抽取历史。 > > 杨豫鲁于2020年8月13日周四下午3:33写道： > > > 请教大家一个我最近在配置Flink流的过程中遇到问题， > &

Re: 请教关于Flink算子FINISHED状态时无法保存Checkpoint的问题

2020-08-16 文章 Congxian Qiu

--- > 发件人: > "user-zh" > < > yj5...@gmail.com; > 发送时间:2020年8月13日(星期四) 中午1:49 > 收件人:"user-zh" > 主题:请教关于Flink算子FINISHED状态时无法保存Checkpoint的问

??????????????Flink????FINISHED??????????????Checkpoint??????

2020-08-14 文章 ????

?? redisredis??State ---- ??:

Re: 请教关于Flink算子FINISHED状态时无法保存Checkpoint的问题

2020-08-13 文章 yulu yang

对了，我这个flink作业和和分组都是新创建，不存在抽取历史。杨豫鲁于2020年8月13日周四下午3:33写道： > 请教大家一个我最近在配置Flink流的过程中遇到问题， > > flink作业中关联使用了物理表（字典表），在flinkjob启动后，会对字典表进行一次读取，然后该算子会变成FINISHED状态，导致该flinkjob无法保存checkpoint和savepoint。一般大家遇到这种问题都是怎么处理的，我这个作业在数据加工过程中必须用到字典表赋值。 > > > > >

请教关于Flink算子FINISHED状态时无法保存Checkpoint的问题

2020-08-13 文章杨豫鲁

请教大家一个我最近在配置Flink流的过程中遇到问题， flink作业中关联使用了物理表（字典表），在flinkjob启动后，会对字典表进行一次读取，然后该算子会变成FINISHED状态，导致该flinkjob无法保存checkpoint和savepoint。一般大家遇到这种问题都是怎么处理的，我这个作业在数据加工过程中必须用到字典表赋值。

Re: 请教关于Flink算子FINISHED状态时无法保存Checkpoint的问题

2020-08-13 文章 yulu yang

Congxian > > > Congxian Qiu 于2020年8月13日周四下午2:00写道： > > > Hi > > 现在 checkpoint/savepoint 需要所有算子都处于 RUNNING 状态，不过社区也有一些 issue > > 希望能够优化这个问题[1][2] > > > > [1] https://issues.apache.org/jira/browse/FLINK-2491 > > [2] https://issues.apache.org/jira/b

Re: 请教关于Flink算子FINISHED状态时无法保存Checkpoint的问题

2020-08-13 文章 Congxian Qiu

Hi 不好意思，上一份邮件没有说完就发送出去了。如果你希望把从其他地方读入字典表，然后在 flink 中使用，或许可以看看 broadcast state[1] [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/stream/state/broadcast_state.html Best, Congxian Congxian Qiu 于2020年8月13日周四下午2:00写道： > Hi > 现在 checkpoint/savepoint 需要所

Re: 请教关于Flink算子FINISHED状态时无法保存Checkpoint的问题

2020-08-13 文章 Congxian Qiu

Hi 现在 checkpoint/savepoint 需要所有算子都处于 RUNNING 状态，不过社区也有一些 issue 希望能够优化这个问题[1][2] [1] https://issues.apache.org/jira/browse/FLINK-2491 [2] https://issues.apache.org/jira/browse/FLINK-18263 Best, Congxian yulu yang 于2020年8月13日周四下午1:49写道： > 请教大佬一个我最近在配置Flink流的过程中遇到问题， > > flink作业中关联

请教关于Flink算子FINISHED状态时无法保存Checkpoint的问题

2020-08-12 文章 yulu yang

请教大佬一个我最近在配置Flink流的过程中遇到问题， flink作业中关联使用了物理表（字典表），在flinkjob启动后，会对字典表进行一次读取，然后该算子会变成FINISHED状态，导致该flinkjob无法保存checkpoint和savepoint。一般大家遇到这种问题都是怎么处理的，我这个作业在数据加工过程中必须用到字典表赋值。

Re: 读取hive表的数据转化为流；按照jdbc两阶段提交方式写入oracle数据库,没有异常但是checkpoint失败

2020-08-10 文章 shizk233

ate */ @Override > protected void commit(ConnectionState connectionState) { >log.info("start commit..." + connectionState); > Connection connection = > connectionState.connection; try { > connection.commit(); > connection.close(); > } catch

回复：读取hive表的数据转化为流；按照jdbc两阶段提交方式写入oracle数据库,没有异常但是checkpoint失败

2020-08-10 文章 Bruce

:37:38,391 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Checkpoint triggering task Source: HiveTableSource(empno, ename, job, mgr, hiredate, sal, comm, deptno) TablePath: flink000.emp, PartitionPruned: false, PartitionNums: null - SinkConversionToRow (1

读取hive表的数据转化为流；按照jdbc两阶段提交方式写入oracle数据库,没有异常但是checkpoint失败

2020-08-10 文章 Bruce

您好，这里有个问题反馈下！读取hive表的数据转化为流；按照jdbc两阶段提交方式写入oracle数据库，没有抛任何异常但是checkpoint失败: job eb447d27efb8134da40c0c1dd19fffdf is not in state RUNNING but SCHEDULED instead. Aborting checkpoint. 附件 1.flink.log是yarn jobmanager打印的伪日志 2.Job.txt是job的伪代码 3.jdbc两阶段提交的伪代码附件发自我的iPhone

转发：Sql-client的checkpoint问题

2020-08-06 文章 king

Checkpoint只生成了shared和taskowned目录，没有chk，望解答，谢谢 | | king | | 邮箱：kingjinhe2...@163.com | Signature is customized by Netease Mail Master - 转发的邮件 - 发件人： king 发送日期： 2020年08月07日 09:05 收件人： user-zh 主题：转发：Sql-client的checkpoint问题抱歉，不是flink-site.yaml是flink-conf.yaml | | king | | 邮箱

转发：Sql-client的checkpoint问题

2020-08-06 文章 king

抱歉，不是flink-site.yaml是flink-conf.yaml | | king | | 邮箱：kingjinhe2...@163.com | Signature is customized by Netease Mail Master - 转发的邮件 - 发件人： king 发送日期： 2020年08月07日 08:23 收件人： user-zh 主题： Sql-client的checkpoint问题您好，flink1.11.0,请问， 1.sql-client 如何设置checkpoint时间（生成周期）,在做file

Sql-client的checkpoint问题

2020-08-06 文章 king

您好，flink1.11.0,请问， 1.sql-client 如何设置checkpoint时间（生成周期）,在做file streaming时候hdfs文件一直In-progress处状态，不能Finalized 2.之前在flink-site.yaml文件中设置了checkpoint，systemfile类型，只生成了另外两个目录，没有生成chk，望解答，谢谢以上问题在编程方式下无问题。 | | king | | 邮箱：kingjinhe2...@163.com | Signature is customized by Netease Mail Master

回复：Flink 通过sql client 启动的任务，kill掉之后，是否可以指定checkpoint恢复？

2020-08-04 文章 JasonLee

HI 目前sql-client的方式应该还不支持从指定的checkpoint恢复任务不过Flink on zeppelin目前已经支持了有兴趣可以用下 | | JasonLee | | 邮箱：17610775...@163.com | Signature is customized by Netease Mail Master 在2020年08月04日 16:28，mispower 写道：通过sql_client 启动的streaming的任务，在维护或者异常之后，如何像flink straming 一样通过指定checkpoint 恢复到上一次的消费节点。在邮件列表里搜

Flink 通过sql client 启动的任务，kill掉之后，是否可以指定checkpoint恢复？

2020-08-04 文章 mispower

通过sql_client 启动的streaming的任务，在维护或者异常之后，如何像flink straming 一样通过指定checkpoint 恢复到上一次的消费节点。在邮件列表里搜索了相关的问题，好像都没有明确回答。

Re: Flink使用Kafka作为source时checkpoint成功提交offset的机制

2020-07-30 文章 shizk233

似乎楼主一开始说的checkpoint成功是指source 算子的checkpoint成功？但notifyCheckpointComplete函数要求的是整个链路的chk成功。这个时候offset为100的消息必然已经被sink算子处理完成了，因为触发chk的屏障消息必然在offset100的消息之后到达sink算子。 hk__lrzy 于2020年7月29日周三下午5:53写道： > 你是说emit之后的offset commit么？可以看下 > `Kafka09Fetcher`的runFetchLoop方法 > > > 在2020年07月2

回复： Flink使用Kafka作为source时checkpoint成功提交offset的机制

2020-07-29 文章 hk__lrzy

你是说emit之后的offset commit么？可以看下 `Kafka09Fetcher`的runFetchLoop方法在2020年07月29日 15:09，shuwen zhou 写道：比如读到一条offset值为100的消息，有Kafka Consumer source，一个Process算子和一个Sink算子那么在这条消息到达Process算子，还未到达Sink算子时，提交offset是100吗？ On Wed, 29 Jul 2020 at 14:51, venn wrote: checkpoint成功时就会把它的offset提交，可以看下这个类

RE: Flink使用Kafka作为source时checkpoint成功提交offset的机制

2020-07-29 文章 venn

可以这样理解，实际上souce 算子只知道这条数据发出去了，不知道这条数据执行到哪里的 -Original Message- From: user-zh-return-5981-wxchunjhyy=163@flink.apache.org On Behalf Of shuwen zhou Sent: 2020年7月29日 15:10 To: user-zh@flink.apache.org Subject: Re: Flink使用Kafka作为source时checkpoint成功提交offset的机制比如读到一条offset值为100的消息，有

Re: Flink使用Kafka作为source时checkpoint成功提交offset的机制

2020-07-29 文章 shuwen zhou

比如读到一条offset值为100的消息，有Kafka Consumer source，一个Process算子和一个Sink算子那么在这条消息到达Process算子，还未到达Sink算子时，提交offset是100吗？ On Wed, 29 Jul 2020 at 14:51, venn wrote: > checkpoint成功时就会把它的offset提交，可以看下这个类: FlinkKafkaConsumerBase 的这个方法： > notifyCheckpointComplete > > -Original Message-

RE: Flink使用Kafka作为source时checkpoint成功提交offset的机制

2020-07-29 文章 venn

checkpoint成功时就会把它的offset提交，可以看下这个类: FlinkKafkaConsumerBase 的这个方法： notifyCheckpointComplete -Original Message- From: user-zh-return-5976-wxchunjhyy=163@flink.apache.org On Behalf Of shuwen zhou Sent: 2020年7月29日 14:24 To: user-zh@flink.apache.org Subject: Flink使用Kafka作为source时

Flink使用Kafka作为source时checkpoint成功提交offset的机制

2020-07-29 文章 shuwen zhou

大家好，请教一个问题，当Flink在使用Kafka作为source，并且checkpoint开启时，提交的offset是在消息被链路最后一个算子处理之后才会把这条offset提交吗？还是说这个消息只要从Kafka source读取后，不论链路处理到哪个算子， checkpoint成功时就会把它的offset提交呢？另外有大神指路这段代码具体在哪个文件吗？谢谢！ -- Best Wishes, Shuwen Zhou

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-22 文章 Congxian Qiu

gt; >>> >> > Peihui He 于2020年7月16日周四下午5:26写道： >>> >> > >>> >> >> Hi Yun， >>> >> >> >>> >> >> 作业没有开启local recovery，我这边测试1.10.0是必现的。 >>> >> >> >>> >> >> Best wishes. >>> >> >> >>

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-22 文章 Peihui He

t; > >> >> >> Hi Yun， >> >> >> >> >> >> 作业没有开启local recovery，我这边测试1.10.0是必现的。 >> >> >> >> >> >> Best wishes. >> >> >> >> >> >> Yun Tang 于2020年7月16日周四下午5:04写道： >> >> &g

flink sink kafka Error while confirming checkpoint

2020-07-22 文章 Peihui He

Hello, flink 1.10.1 kafka 2.12-1.1.0 运行一段时间后会出现一下错误，不知道有遇到过没？ java.lang.RuntimeException: Error while confirming checkpoint at org.apache.flink.streaming.runtime.tasks.StreamTask.notifyCheckpointComplete(StreamTask.java:935

Re: 想知道state写到checkpoint文件没有

2020-07-21 文章 Congxian Qiu

Hi Checkpoint 包括两部分：1）meta 文件；2）具体的数据。如果是 Meta 部分可以参考 CheckpointMetadataLoadingTest[1] 自己写一个测试，如果你知道具体的内容，或许也可以看一下 StatePorcessAPI[2] [1] https://github.com/apache/flink/blob/master/flink-runtime/src/test/java/org/apache/flink/runtime/checkpoint/CheckpointMetadataLoadingTest.java [2] https

想知道state写到checkpoint文件没有

2020-07-20 文章 sun

请问怎么反编译checkpoint文件啊，我想知道state写到checkpoint文件没有 _default_ OPERATOR_STATE_DISTRIBUTION_MODE SPLIT_DISTRIBUTE VALUE_SERIALIZER Gorg.apache.flink.api.common.typeutils.ParameterlessTypeSerializerConfigzS酿脂?sr -org.apache.flink.runtime.state.JavaSerializerFSX韦4 ? xr

Flink ??kafka??????????????????checkpoint??????????

2020-07-20 文章 ??????

?? ??Flink ??kafka??checkpointEXACTLY_ONCE ?? Producer attempted an operation with an old epoch.Either there is a newer producer with the same transactionalId, or the producer's transaction has been expired by the broker ?? ??

?????? state??????checkpoint??????

2020-07-20 文章 sun

JM checkpoint ?? 18:08:07.615 [Checkpoint Timer] INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Triggering checkpoint 116 @ 1595239687615 for job acd456ff6f2f9f59ee89b126503c20f0. 18:08:07.628 [flink-akka.actor.default-dispatcher-420] INFO

Re:Re: Re: Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-19 文章程龙

;> >> >> >> -- >> >> Best, yuchuan >> >> >> >> >> >> >> >> 在 2020-07-06 14:04:58，"Congxian Qiu" 写道： >> >> >@陈凯感谢你分享的这个方法，比较好奇这两个的区别是什么？修改后的 patch 在 closure 中一开始 copy 了一份 >> >> &g

??????state??????checkpoint??????

2020-07-17 文章 JasonLee

hi UI??checkpoint??checkpoint?? ?? | | JasonLee | | ??17610775...@163.com | Signature is customized by Netease Mail Master ??2020??07??17?? 17:21??sun ?? ??counts ?? Listhttps://ci.apache.org/projects

Re: state无法从checkpoint中恢复

2020-07-17 文章 Congxian Qiu

Hi 1 你需要回复一下我之前问你的问题：你可以从 JM log 看一下是否从 checkpoint 恢复了 2. 这里没有打印只是表明当前处理的 key 没有 state 数据，并不能表示 state 没有恢复回来，state 值是绑定到某个 key 上的（keyby 的 key） Best, Congxian sun <1392427...@qq.com> 于2020年7月17日周五下午5:22写道： > 你好：counts 的数据我是在下面打印出来了 List Lists.newArrayList(c

Re: flink 1.11 checkpoint使用

2020-07-17 文章 Leonard Xu

Hi，曹武这是一个已知bug，这个在1.11.1和1.12.0里已经修复，如果着急使用，可以自己编译下release-1.11分支。祝好 Leonard Xu https://issues.apache.org/jira/browse/FLINK-18461 <https://issues.apache.org/jira/browse/FLINK-18461> > 在 2020年7月17日，17:12，曹武 <14701319...@163.com> 写道： > > 感觉好像是应为从checkpoint启动失败或者是chec

?????? state??????checkpoint??????

2020-07-17 文章 sun

??counts ?? Listhttps://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/libs/state_processor_api.html Best, Congxian sun <1392427...@qq.com ??2020??7??16?? 6:16??

Re: flink 1.11 checkpoint使用

2020-07-17 文章曹武

感觉好像是应为从checkpoint启动失败或者是checkpiont文件里面不包含groupby的中间结果,这个怎么排查呀! godfrey he wrote > 为什么要 GROUP BY id,name ,description, weight ？ > 直接 "INSERT INTO sink SELECT id,name ,description, weight FROM > debezium_source" 不能满足需求？ > > 曹武 < > 14701319164@ >> 于2020年7月16

Re: flink 1.11 checkpoint使用

2020-07-17 文章曹武

UP BY id,name ,description, weight ？ > 直接 "INSERT INTO sink SELECT id,name ,description, weight FROM > debezium_source" 不能满足需求？ > > 曹武 < > 14701319164@ >> 于2020年7月16日周四下午9:30写道： > >> 我在使用flink 1.11.0中得ddl 部分采用debezium-json做cdc得时候 >> 从checkpoint恢复以后

Re: flink 1.11 checkpoint使用

2020-07-17 文章曹武

rote: > >> 为什么要 GROUP BY id,name ,description, weight ？ >> 直接 "INSERT INTO sink SELECT id,name ,description, weight FROM >> debezium_source" 不能满足需求？ >> >> 曹武 < > 14701319164@ >> 于2020年7月16日周四下午9:30写道： >> >> > 我在使用flink 1.11.0

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-17 文章 Peihui He

t; >>> Hi Peihui > >> >>> > >> >>> Flink-1.10.1 > >> >>> 里面涉及到相关代码的改动就是更改了restore时path的类[1]，但是你们的操作系统并不是windows，按道理应该是没有关系的。 > >> >>> 另外，这个问题在你遇到failover时候是必现的么？从文件路径看，作业也没有开启local recovery是吧？ > >> >>

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Congxian Qiu

gt; >>> 里面涉及到相关代码的改动就是更改了restore时path的类[1]，但是你们的操作系统并不是windows，按道理应该是没有关系的。 >> >>> 另外，这个问题在你遇到failover时候是必现的么？从文件路径看，作业也没有开启local recovery是吧？ >> >>> >> >>> >> >>> [1] >> >>> >> https://github.com/apache/flink/c

Re: flink 1.11 checkpoint使用

2020-07-16 文章 Jark Wu

ght ？ > 直接 "INSERT INTO sink SELECT id,name ,description, weight FROM > debezium_source" 不能满足需求？ > > 曹武 <14701319...@163.com> 于2020年7月16日周四下午9:30写道： > > > 我在使用flink 1.11.0中得ddl 部分采用debezium-json做cdc得时候 > > 从checkpoint恢复以后,新来op=d的数据会删除失败 > > 重启命令:./bi

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He

gt; >>> Flink-1.10.1 > >>> 里面涉及到相关代码的改动就是更改了restore时path的类[1]，但是你们的操作系统并不是windows，按道理应该是没有关系的。 > >>> 另外，这个问题在你遇到failover时候是必现的么？从文件路径看，作业也没有开启local recovery是吧？ > >>> > >>> > >>> [1] > >>> > https://github.com/

Re: flink 1.11 checkpoint使用

2020-07-16 文章 godfrey he

为什么要 GROUP BY id,name ,description, weight ？直接 "INSERT INTO sink SELECT id,name ,description, weight FROM debezium_source" 不能满足需求？曹武 <14701319...@163.com> 于2020年7月16日周四下午9:30写道： > 我在使用flink 1.11.0中得ddl 部分采用debezium-json做cdc得时候 > 从checkpoint恢复以后,新来op=d的数据会删除失败 > 重启命

flink 1.11 checkpoint使用

2020-07-16 文章曹武

我在使用flink 1.11.0中得ddl 部分采用debezium-json做cdc得时候从checkpoint恢复以后,新来op=d的数据会删除失败重启命令:./bin/flink run -m yarn-cluster /root/bigdata-flink-1.0.jar -s hdfs://prehadoop01:8020/flink/checkpoints/4cc5df8b96e90c1c2a4d3719a77f51d1/chk-819/_metadata 代码: EnvironmentSettings settings

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Congxian Qiu

;> https://github.com/apache/flink/commit/399329275e5e2baca9ed9494cce97ff732ac077a >>> 祝好 >>> 唐云 >>> ____ >>> From: Peihui He >>> Sent: Thursday, July 16, 2020 16:15 >>> To: user-zh@flink.apache.org >>>

Re: state无法从checkpoint中恢复

2020-07-16 文章 Congxian Qiu

Hi 1 counts 的数据丢失了能否详细描述一下呢？你预期是什么，看到什么现象 2 能否把你关于 counts 的其他代码也贴一下 3. 你的作业是否从 checkpoint 恢复了呢？这个可以从 JM log 来查看 4. 如果你确定是数据有丢失的话，或许你可以使用 state-process-api[1] 看一下是序列化出去有问题，还是 restore 回来有问题 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/libs/state_processor_api.html Best

state??????checkpoint??????

2020-07-16 文章 sun

env.enableCheckpointing(1000);env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime); // env.setRestartStrategy(RestartStrategies.noRestart()); env.getCheckpointConfig().setCheckpointTimeout(500);

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He

b.com/apache/flink/commit/399329275e5e2baca9ed9494cce97ff732ac077a >> 祝好 >> 唐云 >> >> From: Peihui He >> Sent: Thursday, July 16, 2020 16:15 >> To: user-zh@flink.apache.org >> Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He

; https://github.com/apache/flink/commit/399329275e5e2baca9ed9494cce97ff732ac077a > 祝好 > 唐云 > > From: Peihui He > Sent: Thursday, July 16, 2020 16:15 > To: user-zh@flink.apache.org > Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复 >

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Yun Tang

: Thursday, July 16, 2020 16:15 To: user-zh@flink.apache.org Subject: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复 Hi Yun, 不好意思这么久回复，是@Congxian 描述的第2种情况。异常就是我通过socket 输入的特定的word抛出runtimeexception 使task 失败，然后job会尝试从checkpoint中恢复，但是恢复的过程中就报 Caused by: java.nio.file.NoSuchFileException: /data

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He

Hi Yun, 不好意思这么久回复，是@Congxian 描述的第2种情况。异常就是我通过socket 输入的特定的word抛出runtimeexception 使task 失败，然后job会尝试从checkpoint中恢复，但是恢复的过程中就报 Caused by: java.nio.file.NoSuchFileException: /data/hadoop/yarn/local/usercache/hdfs/appcache/application_1589438582606_30760/flink-io-26af2be2-2b14-4eab-90d8-9ebb32ace6e3

Re: Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He

Hi chenxyz, 我们遇到的问题应该是一样的，换了1.10.1 后就可以从checkpoint 中恢复了。珞 Best wishes. chenxyz 于2020年7月15日周三下午9:53写道： > > > > Hello， > Peihui，可以参考下是不是和这个问题类似？之前我在1.10.0也遇到过。 > > http://apache-flink.147419.n8.nabble.com/rocksdb-Could-not-restore-keyed-state-backend-for-KeyedProcessOpera

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-16 文章 Peihui He

： > Hi > > 我尝试理解一下： > 1 你用 1.9 跑 wordcount 作业，然后执行了一些 checkpoint，然后停止作业，然后使用 1.10 从之前 1.9 的作业生成的 > checkpoint 恢复，发现恢复不了？ > 2 你用作业 1.10 跑 wordcount，然后遇到特定的 word 会抛异常，然后 failover，发现不能从 checkpoint 恢复？ > > 你这里的问题是第 1 种还是第 2 种呢？ > > 另外能否分享一下你的操作步骤以及出错时候的 taskmanag

Re:Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-15 文章 chenxyz

道： >Hi Yun， > >我这边用一个word count 例子，socket -> flatmap -> keyBy -> reduce -> >print. 在flatmap 中当出现特定word的时候就抛出一个runtimeException。在1.9.2 >里面是可以从checkpoint中自动恢复上次做checkpoint的时候的状态，但是用1.10.0 就不能。环境是flink on >yarn。 > >Best wishes. > >Yun Tang 于2020年7月14日周二上午11:57写道

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-15 文章 Robin Zhang

据我所知，跨大版本的不能直接从checkoint恢复，只能放弃状态重新跑 Best Robin Zhang From: Peihui He <[hidden email]> Sent: Tuesday, July 14, 2020 10:42 To: [hidden email] <[hidden email]> Subject: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复 hello，当升级到1.10.0 时候，程序出错后会尝试从che

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-14 文章 Congxian Qiu

Hi 我尝试理解一下： 1 你用 1.9 跑 wordcount 作业，然后执行了一些 checkpoint，然后停止作业，然后使用 1.10 从之前 1.9 的作业生成的 checkpoint 恢复，发现恢复不了？ 2 你用作业 1.10 跑 wordcount，然后遇到特定的 word 会抛异常，然后 failover，发现不能从 checkpoint 恢复？你这里的问题是第 1 种还是第 2 种呢？另外能否分享一下你的操作步骤以及出错时候的 taskmanager log 呢？ Best, Congxian Peihui He 于2020年7月14日周二下午2

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-14 文章 Peihui He

Hi Congxian，这个错误是从1.9 升级到1.10 遇到的问题。用简单的wordcount 测试，自己根据特定word 抛出runtimeException，就能够重现。flink on yarn 和 flink on k8s 都出现这个问题。1.10 都不能从上次的checkpoint状态中恢复。不知道是不是1.10需要其他配置呢？ Best wishes. Congxian Qiu 于2020年7月14日周二下午1:54写道： > Hi > > 这个出错是从 1.9 升级到 1.10 遇到的问题，还是说 1.10 能正常跑了，然后跑着跑着 fai

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-14 文章 Peihui He

Hi Yun，我这边用一个word count 例子，socket -> flatmap -> keyBy -> reduce -> print. 在flatmap 中当出现特定word的时候就抛出一个runtimeException。在1.9.2 里面是可以从checkpoint中自动恢复上次做checkpoint的时候的状态，但是用1.10.0 就不能。环境是flink on yarn。 Best wishes. Yun Tang 于2020年7月14日周二上午11:57写道： > Hi Peihui > > 你的异常应该是从增量

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-13 文章 Congxian Qiu

Hi 这个出错是从 1.9 升级到 1.10 遇到的问题，还是说 1.10 能正常跑了，然后跑着跑着 failover 了再次恢复的时候出错了呢？另外你可以看下 tm log 看看有没有其他异常 Best, Congxian Yun Tang 于2020年7月14日周二上午11:57写道： > Hi Peihui > > 你的异常应该是从增量Checkpoint恢复时，文件已经下载到本地了，做硬链时[1]，发现源文件不见了，有很大的可能是当时发生了异常，导致restore流程退出了，所以这个问题应该不是root > cause。 >

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-13 文章 Yun Tang

Hi Peihui 你的异常应该是从增量Checkpoint恢复时，文件已经下载到本地了，做硬链时[1]，发现源文件不见了，有很大的可能是当时发生了异常，导致restore流程退出了，所以这个问题应该不是root cause。 [1] https://github.com/apache/flink/blob/2a3b642b1efb957f3d4f20502c40398786ab1469/flink-state-backends/flink-statebackend-rocksdb/src/main/java/org/apache/flink/contrib/streaming

flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-07-13 文章 Peihui He

hello，当升级到1.10.0 时候，程序出错后会尝试从checkpoint恢复，但是总是失败，提示 Caused by: java.nio.file.NoSuchFileException: /data/hadoop/yarn/local/usercache/hdfs/appcache/application_1589438582606_30760/flink-io-26af2be2-2b14-4eab-90d8-9ebb32ace6e3

Re: Re: Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-13 文章 Congxian Qiu

会变为 null，这个比较奇怪。 > >> > > >> >Best, > >> >Congxian > >> > > >> > > >> >陈凯于2020年7月6日周一上午9:53写道： > >> > > >> >> > >> >> Hi,zhisheng 程龙.我们也遇到这个问题了，jdk版本jdk8_40，低版本 jdk 确实有大概率会NPE。 > >>

Re: flink任务checkpoint无法完成snapshot，且报kafka异常

2020-07-13 文章 Congxian Qiu

目前来看，平稳运行，没有再报出类似错误。 > > 反馈一下，如果有朋友遇到类似的问题，可以参考，给这个问题做一个闭环。谢谢各位的关注和帮忙。 > > Best, > Zhefu > > LakeShen 于2020年6月12日周五上午9:49写道： > > > Hi ZheFu, > > > > 可以把你的 Flink 版本说一下，我大致理解是这样的，每次 sink 端在 snapshotState 的时候，会检查该次 Sink > > 的数据是否都已经 Sink 到了 kafka. &g

Re: flink任务checkpoint无法完成snapshot，且报kafka异常

2020-07-13 文章 Leonard Xu

时候，会检查该次 Sink >> 的数据是否都已经 Sink 到了 kafka. >> >> 也就是说，你这次 Checkpoint 的时候，由于你的 Checkpoint 间隔较短，Kafka 那边给回的消息记录 Ack >> 还没有弄完，所以有这个问题。建议 Checkpoint 间隔弄长点。 >> >> 具体代码查看：FlinkKafkaProducerBase.snapshotState 这个方法。 >> >> Best, >> LakeShen >> >

Re: flink任务checkpoint无法完成snapshot，且报kafka异常

2020-07-13 文章 Zhefu PENG

eFu, > > 可以把你的 Flink 版本说一下，我大致理解是这样的，每次 sink 端在 snapshotState 的时候，会检查该次 Sink > 的数据是否都已经 Sink 到了 kafka. > > 也就是说，你这次 Checkpoint 的时候，由于你的 Checkpoint 间隔较短，Kafka 那边给回的消息记录 Ack > 还没有弄完，所以有这个问题。建议 Checkpoint 间隔弄长点。 > > 具体代码查看：FlinkKafkaProducerBase.snapshotState 这个方法。 > > Bes

Re:Re: Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-12 文章程龙

，这个比较奇怪。 >> > >> >Best, >> >Congxian >> > >> > >> >陈凯于2020年7月6日周一上午9:53写道： >> > >> >> >> >> Hi,zhisheng 程龙.我们也遇到这个问题了，jdk版本jdk8_40，低版本 jdk 确实有大概率会NPE。 >> >> 我之前提了个jira 描述了这个问题 >> >> h

Re: Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-06 文章 Congxian Qiu

>CheckpointMeta，也就是说 845 - 867 行之间，之前的 checkpointMeta 会变为 null，这个比较奇怪。 > > > >Best, > >Congxian > > > > > >陈凯于2020年7月6日周一上午9:53写道： > > > >> > >> Hi,zhisheng 程龙.我们也遇到这个问题了，jdk版本jdk8_40，低版本 jdk 确实有大概率会NPE。 > >> 我之前提了个jira 描

Re:Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-06 文章 chenkaibit

:53写道： > >> >> Hi,zhisheng 程龙.我们也遇到这个问题了，jdk版本jdk8_40，低版本 jdk 确实有大概率会NPE。 >> 我之前提了个jira 描述了这个问题 >> https://issues.apache.org/jira/browse/FLINK-18196 >> >> 修改了Checkpoint 相关代码后，在低版本 jdk 上也没有再发现过过NPE。如果实在不能升级 jdk 版本，可以参考下面的patch： >> >> https://g

Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-06 文章 Congxian Qiu

che.org/jira/browse/FLINK-18196 > > 修改了Checkpoint 相关代码后，在低版本 jdk 上也没有再发现过过NPE。如果实在不能升级 jdk 版本，可以参考下面的patch： > > https://github.com/yuchuanchen/flink/commit/e5122d9787be1fee9bce141887e0d70c9b0a4f19 > > > > -邮件原件- > 发件人: zhisheng > 发送时间: 2020年7月5日 15:01 > 收件人: u

答复: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-05 文章陈凯

Hi,zhisheng 程龙.我们也遇到这个问题了，jdk版本jdk8_40，低版本 jdk 确实有大概率会NPE。我之前提了个jira 描述了这个问题 https://issues.apache.org/jira/browse/FLINK-18196 修改了Checkpoint 相关代码后，在低版本 jdk 上也没有再发现过过NPE。如果实在不能升级 jdk 版本，可以参考下面的patch： https://github.com/yuchuanchen/flink/commit/e5122d9787be1fee9bce141887e0d70c9b0a4f19 -邮件

Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-05 文章 zhisheng

> > Congxian > > > > > > > > > 程龙 <13162790...@163.com> 于2020年7月1日周三下午9:09写道： > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > >

Re: Re: 为什么 flink checkpoint Checkpoint Duration (Async) 阶段耗时很慢

2020-07-04 文章 Congxian Qiu

你好对于 Checkpoint Async 阶段比较慢的情况，你可以看一下网络的情况，以及 HDFS 的读写情况，-- 包括 NN 的压力等。 Best, Congxian zhisheng 于2020年6月28日周日上午10:31写道： > hi，立志： > > 从你的描述（能跑 10 几天且使用的是 FsStateBackend），可以提供一下 JobManager 和 TaskManager 的 GC > 时间和次数的监控信息吗？怀疑是不是因为 Full GC 导致的问题。 > > Best！ > zhisheng >

Re: 在没有开启Checkpoint的情况下，当作业重启时，历史数据是否会残留在内存中？

2020-07-04 文章 Congxian Qiu

从现象看，应该是有内存泄漏，你需要看一下这些内存都是啥，然后才好定位是哪里的问题 checkpoint 是指 state 的一个快照，rocksdb 中存的是 state。理论上来说，作业 fail 了，之前 rocksdb 中的数据就没有了。新的作业是会使用新的 RocksDB Best, Congxian SmileSmile 于2020年7月3日周五下午2:15写道： > 作业运行在k8s上，这个现象可以重现，目前我这边有多份数据join的作业基本都会有这个问题。步骤如下： > 1. 使用eventtime，水位线设置为数据时间-3分钟，状态使用rocks

Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-04 文章 Congxian Qiu

wse/FLINK-17479 > > Best, > > Congxian > > > > > > 程龙 <13162790...@163.com> 于2020年7月1日周三下午9:09写道： > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > > >

Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-03 文章 zhisheng

m> 于2020年7月1日周三下午9:09写道： > > > > > > > > > > > > > > > > > > > > > > > > > > > 都是分配不到资源(slot)的错误，应该还是checkpoint 为空导致的,不知道为啥为空 > > > > > > > > > > > > 在 2020-07-01 20:51:34，"JasonLee" <17610775...@163.com> 写道： > &

回复：在没有开启Checkpoint的情况下，当作业重启时，历史数据是否会残留在内存中？

2020-07-03 文章 SmileSmile

作业运行在k8s上，这个现象可以重现，目前我这边有多份数据join的作业基本都会有这个问题。步骤如下： 1. 使用eventtime，水位线设置为数据时间-3分钟，状态使用rocksdb，不开启checkpoint，设置内存limit 2. 作业运行一段时间。 3. kill 其中一个pod，作业fail 4. k8s自动拉起该pod，观察其他pod的内存使用，会上涨。运行一段时间然后很容易超过limit被os kill 5. 陷入被重复kill的死循环。解决方法：销毁集群，重构即可。观察过heap的内存，没有问题。被os kill怀疑是offheap超用，offheap没有正常

Re: 回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-03 文章 Congxian Qiu

你可以看看是否 FLINK-17479[1] 和你的问题一样，是的话，可以尝试修改一下 jdk 版本试试 [1] https://issues.apache.org/jira/browse/FLINK-17479 Best, Congxian 程龙 <13162790...@163.com> 于2020年7月1日周三下午9:09写道： > > > > > > > > > > > > > 都是分配不到资源(slot)的错误，应该还是checkpoint 为空导致的,不知道为啥为

Re: 在没有开启Checkpoint的情况下，当作业重启时，历史数据是否会残留在内存中？

2020-07-03 文章 Congxian Qiu

2020年07月03日 11:21，SmileSmile 写道： > > Hi > > 我的作业是运行在1.10.1, 使用的是event time ，没有开启checkPoint。每当作业重启一次，container memory > usage会上涨2G，每重启一次就会上涨一些内存直到被OS kill。 > > > 历史数据的清理是在新event time到达之后调用 WindowOperator#onEventTime() > 的clearAllState实现清理，如果作业重启，又没有开启checkpoint，尚未被处理的历史

回复：在没有开启Checkpoint的情况下，当作业重启时，历史数据是否会残留在内存中？

2020-07-02 文章 SmileSmile

这种现象只会出现在on rocksdb中。 | | a511955993 | | 邮箱：a511955...@163.com | 签名由网易邮箱大师定制在2020年07月03日 11:21，SmileSmile 写道： Hi 我的作业是运行在1.10.1, 使用的是event time ，没有开启checkPoint。每当作业重启一次，container memory usage会上涨2G，每重启一次就会上涨一些内存直到被OS kill。历史数据的清理是在新event time到达之后调用 WindowOperator#onEventTime() 的

在没有开启Checkpoint的情况下，当作业重启时，历史数据是否会残留在内存中？

2020-07-02 文章 SmileSmile

Hi 我的作业是运行在1.10.1, 使用的是event time ，没有开启checkPoint。每当作业重启一次，container memory usage会上涨2G，每重启一次就会上涨一些内存直到被OS kill。历史数据的清理是在新event time到达之后调用 WindowOperator#onEventTime() 的clearAllState实现清理，如果作业重启，又没有开启checkpoint，尚未被处理的历史数据是否一直残留在内存中无法清理？是否有哪位大佬可以帮忙解惑？ | | a511955993 | | 邮箱：a511955...@163

Re:回复：flink1.10 checkpoint 运行一段时间空指针异常

2020-07-01 文章程龙

都是分配不到资源(slot)的错误，应该还是checkpoint 为空导致的,不知道为啥为空在 2020-07-01 20:51:34，"JasonLee" <17610775...@163.com> 写道： >你到具体的tm上找到相关的operator看看是不是有异常信息 > > >| | >JasonLee >| >| >邮箱：17610775...@163.com >| > >Signature is customized by Netease Mai

< 1 2 3 4 5 6 7 >

共有 698 项搜索結果，以下是第 401 - 500 matches

Mail list logo