subject:"checkpoint\?\?\?\?\?\?\?\?\?\?\?\?\?\?"

SQL clinet端，checkpoint 恢复执行

2021-09-08 文章 outlook_3e5704ab57282...@outlook.com

您好：版本：flink1.13 运行： flink sql 源表：基于kafka建表处理逻辑：简单过滤输出到hive 问题：每1分钟做一次checkpoint，然后由于某原因需要取消任务，再次运行job如何继续从最新的checkpoint继续处理，在客户端设置了参数： execution.savepoint.path=hdfs:///user/flink/checkpoints/68e103c6ec9d8bfe459cb6c329ec696c

flink checkpoint 地址设置gs://xxx 提示 HftpFileSystem cannot access its superinterface TokenAspect

2021-09-08 文章 Wayne

EXACTLY_ONCE \ -checkpointTimeout 6000 \ -checkpointDir gs://xxx/checkpoint/purchase_hist \ -tolerableCheckpointFailureNumber 2 \ -asynchronousSnapshots true \ -externalizedCheckpointCleanup RETAIN_ON_CANCELLATION \ -stateBackendType 2 \ -enableIncremental true \ -type 0 引用的pom 依赖如下

回复: Re:flink checkpoint 到hdfs 报错

2021-09-02 文章 chengyanan1...@foxmail.com

. chengyanan1...@foxmail.com 发件人：东东发送时间： 2021-08-20 19:22 收件人： user-zh 主题： Re:Re:Re:flink checkpoint 到hdfs 报错集群里的机器互相访问配的是内网地址呗，你这得开内网访问... 在 2021-08-20 18:56:58，"杨帅统" 写道： > > > > > > >test.gl.cdh.node1 对应的是远程服务器外网地址 139.9.132.* >192.168.0.32:9866是139.9.

回复：Flink on yarn的日志监控和checkpoint的监控生产是如何处理的？

2021-08-31 文章 JasonLee

Hi 可以参考这两篇文章: https://mp.weixin.qq.com/s/2S4M8p-rBRinIRxmZrZq5Q https://mp.weixin.qq.com/s/44SXmCAUOqSWhQrNiZftoQ Best JasonLee 在2021年08月31日 13:23，guanyq 写道： flink on yarn 在集群中启动很多的task，生产应用中是如何监控task的日志，和checkpoint的呢？求大佬指导。

Flink on yarn的日志监控和checkpoint的监控生产是如何处理的？

2021-08-30 文章 guanyq

flink on yarn 在集群中启动很多的task，生产应用中是如何监控task的日志，和checkpoint的呢？求大佬指导。

Re: Flink 从checkpoint恢复时，部分状态没有正确恢复

2021-08-30 文章 Benchao Li

st、map、row等等； > 然后再解释下这个结果不稳定的原因，这个是因为在底层的代码生成里面有一个优化，会按照类型进行分组，然后进行优化， > 但是这个分组的过程用的是一个HashMap[1]，会导致字段顺序不是确定性的，有时候是这个顺序，有时候又是另外一个顺序， > 导致最终的BinaryRow的序列化结果是不稳定的，进而导致无法从checkpoint恢复。 > > 然后典型的多种变长类型，其实是varchar nullable 和 varchar not null 以及 > char(n)，尤其是你这种用了很多常量字符串的场景， > 容易产

Re: Flink 从checkpoint恢复时，部分状态没有正确恢复

2021-08-30 文章 Benchao Li

BinaryRow的序列化结果是不稳定的，进而导致无法从checkpoint恢复。然后典型的多种变长类型，其实是varchar nullable 和 varchar not null 以及 char(n)，尤其是你这种用了很多常量字符串的场景，容易产生后两种类型，在加上普通字段以及函数都会产生的第一种类型，就会触发这个bug了。 [1] https://github.com/apache/flink/blob/release-1.9/flink-table/flink-table-planner-blink/src/main/scala/org/apache/flink/table

Flink 从checkpoint恢复时，部分状态没有正确恢复

2021-08-25 文章 dixingxing

Hi Flink 社区：我们的Flink版本是1.9.2，用的是blink planer，我们今天遇到一个问题，目前没有定位到原因，现象如下：手动重启任务时，指定了从一个固定的checkpoint恢复时，有一定的概率，一部分状态数据无法正常恢复，启动后Flink任务本身可以正常运行，且日志中没有明显的报错信息。具体现象是：type=realshow的数据没有从状态恢复，也就是从0开始累加，而type=show和type=click的数据是正常从状态恢复的。 SQL大致如下： createview view1 as select event_id, act_time

Re:Re:Re:flink checkpoint 到hdfs 报错

2021-08-20 文章东东

2021-08-20 18:28:34，"东东" 写道： >>这不很清楚么，连 192.168.0.32:9866 超时啊 >> >> >> >> >>在 2021-08-20 18:13:10，"杨帅统" 写道： >>>// 开启checkpoint >>>env.enableCheckpointing(5000L, CheckpointingMode.EXACTLY_ONCE); >>> >>>

Re:Re:flink checkpoint 到hdfs 报错

2021-08-20 文章杨帅统

test.gl.cdh.node1 对应的是远程服务器外网地址 139.9.132.* 192.168.0.32:9866是139.9.132.*机器的同一内网下的另一台内网地址为啥会返回内网地址啊。。。在 2021-08-20 18:28:34，"东东" 写道： >这不很清楚么，连 192.168.0.32:9866 超时啊 > > > > >在 2021-08-20 18:13:10，"杨帅统" 写道： >>//

Re:flink checkpoint 到hdfs 报错

2021-08-20 文章东东

这不很清楚么，连 192.168.0.32:9866 超时啊在 2021-08-20 18:13:10，"杨帅统" 写道： >// 开启checkpoint >env.enableCheckpointing(5000L, CheckpointingMode.EXACTLY_ONCE); > >env.getCheckpointConfig().setCheckpointStorage("hdfs://test.gl.cdh.node1:8020/flink/flink-cdc-demo"); >S

flink checkpoint 到hdfs 报错

2021-08-20 文章杨帅统

// 开启checkpoint env.enableCheckpointing(5000L, CheckpointingMode.EXACTLY_ONCE); env.getCheckpointConfig().setCheckpointStorage("hdfs://test.gl.cdh.node1:8020/flink/flink-cdc-demo"); System.setProperty("HADOOP_USER_NAME", "root"); 报错信息如下： org.apache.hadoop.net.

Re:Flink HIve 文件，上游Kafak数据很大的时候，无法完成checkpoint

2021-08-13 文章 Michael Ran

batch 和数量小点呗 ~。~ 在 2021-08-12 10:09:21，"周瑞" 写道：您好，Flink Hive 当上游的Kafka数据量特别大的时候，发现checkpoint一直无法完成，5分钟后报错了。请问这个问题要怎么解决

Flink HIve 文件，上游Kafak数据很大的时候，无法完成checkpoint

2021-08-11 文章周瑞

您好，Flink Hive 当上游的Kafka数据量特别大的时候，发现checkpoint一直无法完成，5分钟后报错了。请问这个问题要怎么解决

Re: local运行模式下不会生成checkpoint吗？

2021-07-09 文章 Yun Tang

Hi 只要enable了checkpoint，一定会生成checkpoint的，这与你的运行模式无关。可以检查一下日志，看看JM端是否正常触发了checkpoint 祝好唐云 From: casel.chen Sent: Tuesday, June 29, 2021 9:55 To: user-zh@flink.apache.org Subject: local运行模式下不会生成checkpoint吗？我在本地使用local运行模式运行flink sql，将数据从kafka写到mongodb，mongodb

local运行模式下不会生成checkpoint吗？

2021-06-28 文章 casel.chen

我在本地使用local运行模式运行flink sql，将数据从kafka写到mongodb，mongodb connector是自己开发的，实现了CheckpointedFunction接口，debug的时候发现数据进来的时候有调用invoke方法，但没有调用initialState和snapshotState方法，我有设置enableCheckpoint，同样的程序使用kubernetes部署发现是会调用snapshotState方法。我的问题是：local运行模式下不会生成checkpoint吗？

Re: Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 JasonLee

hi 增大一下 taskmanager.memory.jvm-overhead 的内存试试 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 Smile

哪个版本的 Flink 啊，我们最近用 1.12.2 也有出现内存超限的情况，不过是 RocksDB，Savepoint 的时候内存增大。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复：检查点失败 Checkpoint Coordinator is suspending 。

2021-06-10 文章 Jason Lee

您好， Checkpoint Coordinator is suspending是那些等待执行的checkpoint检查点因为任务发生异常在停止顶定时任务的stopCheckpointScheduler（）方法中被释放掉，所以日志中这个异常了；具体什么问题害得详细看下是什么原因导致任务异常，是脏数据未处理异常还是怎样的，可能需要具体查看一下TM和JM日志，如果您这边发现具体原因可以同步一下 Best， JasonLee | | JaosnLee | | jasonlee1...@163.com | 签名由网易邮箱大师定制在2021年06月10日 15:39，yidan

检查点失败 Checkpoint Coordinator is suspending 。

2021-06-10 文章 yidan zhao

如题，Checkpoint Coordinator is suspending 这种检查点失败是什么情况，timeout那种我理解是检查点执行时间长，超时了。但是 Checkpoint Coordinator is suspending 这个是什么含义呢？

Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 Jason Lee

各位社区伙伴大家好首先描述一下我的问题：最近我们发现有几个任务平时运行将近一个月都没发生问题，最近在进行checkpoint的时候经常失败，然后一直容错恢复重启，我们通过日志查看，发现某个TM在进行checkpoint的时候内存使用过大导致内存不够被Kill掉了；报错日志： java.lang.Exception: Container [pid=24859,containerID=container_e01_1618927404581_0181_01_002010] is running beyond physical memor y limits. Current usage

Re: Flink sql 状态过期后，checkpoint 大小没变化

2021-06-08 文章 chenchencc

你好，我也遇到这个问题,flink 1.12.2 sql,想问下 1.有什么方式能本地物理上删除那些ttl过期的数据吗 2.有什么方式能checkpoint时候删除ttl过期的数据吗？让checkpoint数据不再继续增长？ -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢问题排查

2021-06-07 文章 yidan zhao

不是的哈，那个方法本身还是同步调用的。就是需要你自己保证逻辑的异步。 Jacob <17691150...@163.com> 于2021年6月8日周二上午9:31写道： > > @nobleyd > 谢谢大神指导，前两天休息没看邮件，才回复，抱歉 > > 我后面把代码大概改成如下样子，checkpoint时间确实得到了改善，job运行几天正常 > > 我提供的线程池在asyncInvoke方法内部跑，这样是不是不合适呀，asyncInvoke方法本身是不是就是封装好的异步方法，就不用单独启线程池了吧？直接在asyncInvoke方法

Re: Flink checkpoint 速度很慢问题排查

2021-06-07 文章 Jacob

@nobleyd 谢谢大神指导，前两天休息没看邮件，才回复，抱歉我后面把代码大概改成如下样子，checkpoint时间确实得到了改善，job运行几天正常我提供的线程池在asyncInvoke方法内部跑，这样是不是不合适呀，asyncInvoke方法本身是不是就是封装好的异步方法，就不用单独启线程池了吧？直接在asyncInvoke方法内部写处理逻辑就好。 public class AsyncProcessFunction extends RichAsyncFunction, List> { private transient ExecutorServ

Re: Flink checkpoint 速度很慢问题排查

2021-06-06 文章 yidan zhao

可以的，本身异步操作的本质就是线程池。至于是你自己提供线程池，去执行某个同步操作。还是直接使用client/sdk等封装的异步方法内部默认的线程池这个无所谓。 Jacob <17691150...@163.com> 于2021年6月5日周六下午1:15写道： > > thanks, > > 我查看了相关文档[1] 由于redis以及hbase的交互地方比较多，比较零散，不光是查询，还有回写redis > > 我打算把之前map算子的整段逻辑以线程池的形式丢在asyncInvoke()方法内部，不知道合适与否，这样数据的顺序性就无法得到保障了吧? > > > > [1] >

Re: Flink checkpoint 速度很慢问题排查

2021-06-04 文章 Jacob

thanks, 我查看了相关文档[1] 由于redis以及hbase的交互地方比较多，比较零散，不光是查询，还有回写redis 我打算把之前map算子的整段逻辑以线程池的形式丢在asyncInvoke()方法内部，不知道合适与否，这样数据的顺序性就无法得到保障了吧? [1] https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/dev/datastream/operators/asyncio/

Re: Flink checkpoint 速度很慢问题排查

2021-06-04 文章 yidan zhao

官方就有文档。其实本质就是一个异步操作假设1ms，那么同步操作的1s也就能1000个操作，qps太低了。异步的话可以大大提高qps。 Jacob <17691150...@163.com> 于2021年6月4日周五下午5:58写道： > > 嗯嗯你的描述是对的，job的执行过程大致就是如此 > > > 我明白你意思了 > > 谢谢你提供的思路，我需要学习一下这个异步算子，之前从未接触过，不太清楚这具体是一个怎样的流程，请问你那边有相关的demo吗，或者该去具体去看哪部分的内容？ > > > > > > - > Thanks! > Jacob > -- > Sent from:

Re: Flink checkpoint 速度很慢问题排查

2021-06-04 文章 yidan zhao

> > 你估计用的是对齐检查点是吧？ ---是的 > > > 同步访问，是因为我们要及时生成新数据，换做异步就无法即时拿到最新的结果数据了 > > 检查点我刚调整为非对齐方式了，从做完的十个checkpoint来看，state大小确实增加了，但速度尚未变快 > > > 消息量确实比较大，处理逻辑也较为复杂，处理逻辑算子的并行度我给了100，source并行度等于topic分区数 > > > > - > Thanks! > Jacob > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢问题排查

2021-06-04 文章 yidan zhao

你任务A中的redis和hbase是异步还是同步访问，同步是肯定不行的。ckpt小是因为没啥状态，自然就小，时间长可能是数据对齐时间长，你估计用的是对齐检查点是吧？如果换成非对齐检查点，时间应该能降下来，但是状态会变得很大，你可以试试。最佳做法是，改造成异步的，不能同步。 JasonLee <17610775...@163.com> 于2021年6月4日周五上午10:57写道： > > hi > > source 端的并发保持和 partition 的个数一样就行了,不要大于 partition 个数,因为这会导致 subtask > 空跑,浪费资源,你只需要把 map

Re: Flink checkpoint 速度很慢问题排查

2021-06-03 文章 JasonLee

hi source 端的并发保持和 partition 的个数一样就行了,不要大于 partition 个数,因为这会导致 subtask 空跑,浪费资源,你只需要把 map 的并行度调大即可. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢问题排查

2021-06-03 文章 Jacob

@JasonLee 谢谢回复 A job 的背压情况如下图我清楚job处理数据速度的确赶不上消息的生产速度这一事实，但暂时想不到一个合理的解决办法，并行度都已经设置的比较大了（从等于topic分区数量已经调整为大于partition数量了）。我把各个task的并行度设置是一样的，让他们链在一个task上，从而优化线程切换的性能其中 Map算子是最耗时的，所有的逻辑和数据加工都在这个Map算子，前后两个Flat Map

Re: Flink checkpoint 速度很慢问题排查

2021-06-03 文章 HunterXHunter

一般是 Job A出现背压了，checkpoint的时候是要等背压的数据都处理完了才会处理barrier。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢问题排查

2021-06-03 文章 JasonLee

hi 你理解的可能有点偏差,应该是因为任务出现了反压或者数据倾斜的问题导致了cp时间长,01消息堆积说明已经反压到source端了,需要先定位反压的位置,看是具体什么原因导致的,然后再根据情况解决. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：Flink checkpoint 速度很慢问题排查

2021-06-03 文章 Jacob

@lian 谢谢回复我通过webui查询，没有背压的情况。 hbase性能这块确实存在一定问题，公司的hbase性能一直不佳，但我的程序中，是先从缓存redis中取，大部分数据都能查到，只有少部分会查hbase。谢谢你提供的思路，我将会从代码级别考虑，看是否能优化相关逻辑 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：Flink checkpoint 速度很慢问题排查

2021-06-03 文章 Jacob

@lian 谢谢回复我通过webui查询，没有背压的情况。 hbase性能这块确实存在一定问题，公司的hbase性能一直不佳，但我的程序中，是先从缓存redis中取，大部分数据都能查到，只有少部分会查hbase。谢谢你提供的思路，我将会从代码级别考虑，看是否能优化相关逻辑 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复：Flink checkpoint 速度很慢问题排查

2021-06-03 文章 lian

排查一下任务在执行过程中，是否有背压，以及在ck过程中，buffer积压了多少数据量。很可能是在访问hbase的过程，性能不是很好。在2021年06月03日 15:27，Jacob 写道： Dear all, 我有一个两个Flink Job A和B A job任务是消费kafka topic01数据，经过一系列逻辑加工，最终将数据sink到topic02 其中加工大致过程是：消费到topic01消息后，根据数据相关字段查询redis、查询hbase，然后组装业务数据（过程比较复杂），然后将业务数据写到另一个topic02，30s做一次checkpoint，state大小只有几

Flink checkpoint 速度很慢问题排查

2021-06-03 文章 Jacob

Dear all, 我有一个两个Flink Job A和B A job任务是消费kafka topic01数据，经过一系列逻辑加工，最终将数据sink到topic02 其中加工大致过程是：消费到topic01消息后，根据数据相关字段查询redis、查询hbase，然后组装业务数据（过程比较复杂），然后将业务数据写到另一个topic02，30s做一次checkpoint，state大小只有几十kb，但做一次checkpoint平均需要两分钟，导致topic01消息产生堆积，实时性降低。 B job任务简单，消费上一步的的业务数据topic02，开一个半个小时的窗口将数据进行聚合

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-06-02 文章 yujianbo

好的非常感谢，我拿几个任务测试一波，看看性能能不能接受！ Hi, 没有被引用的文件可能也不是完全无用的，可能是当前pending checkpoint正在上传的，所以还需要比较一下那些不在checkpoint meta内的文件的修改时间戳，可能比你分析的complete checkpoint的时间戳要大。总体上来说，我不认为这个问题是一个bug，这个是LSM架构的DB的空间放大问题。如果你对空间放大非常担心的话，可以启用 dynamic level [1] 来严格控制空间放大，不过这个可能会影响写放大和读放大，导致性

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-06-02 文章 Yun Tang

Hi, 没有被引用的文件可能也不是完全无用的，可能是当前pending checkpoint正在上传的，所以还需要比较一下那些不在checkpoint meta内的文件的修改时间戳，可能比你分析的complete checkpoint的时间戳要大。总体上来说，我不认为这个问题是一个bug，这个是LSM架构的DB的空间放大问题。如果你对空间放大非常担心的话，可以启用 dynamic level [1] 来严格控制空间放大，不过这个可能会影响写放大和读放大，导致性能受到一定影响。 [1] https://ci.apache.org/projects/flink/flink

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-06-02 文章 yujianbo

Hi，确认的情况：大佬，我根据loadCheckpointMeta能够去分析_metadata引用到的/shared目录下的sst文件，然后发现/shared里没有被引用的sst文件即未删除的旧文件，这些旧文件占比很少，只有5%左右。配置： idleStateRetention确实是设置3600秒，保留的ck目录是3个。目前情况：每次checkpoint size增量差不多1-2G，所以size不小。5分钟checkpoint一次。最近单次checkpoint的sst文件数是23个，文件大小大约在65M。总共目前

flink sql cli 模式下，flink-conf.yaml 配置checkpoint无法生效

2021-06-02 文章 guozhi mang

各位好，我在flink1.13版本的flink配置文件里配置checkpoint和savepoint参数时，相关配置项并没有生效，现将我的配置文件信息和日志放在下文。 *配置文件* #== # Fault tolerance and checkpointing

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-06-01 文章 HunterXHunter

那会一直增大下去吗，我跑了4天，ckp一直变大，没有稳定的迹象。是不是我需要调整compaction的配置 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-06-01 文章 Yun Tang

Hi，增量checkpoint上传的是sst文件本身，里面可能有一部分空间是被无用数据占据的，你可以理解成增量checkpoint上传的是受到空间放大影响的RocksDB的数据，如果因为单机的数据量较小，没有及时触发compaction的话，确实存在整个远程checkpoint目录数据大于当前实际空间的情况。而关闭增量checkpoint，上传的其实是与savepoint格式一样的kv数据对，Flink会遍历整个DB，将目前有效的数据写出到远程。所以你关闭增量checkpoint，而发现checkpoint目录保持恒定大小的话，说明真实有效数据的空间是稳定的。另外，其实不建议在日常

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-05-31 文章 HunterXHunter

我遇到过的问题就是开了增量checkpoint后，checkpoint会越来越大，关闭之后checkpoint就正常了 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-05-31 文章 yujianbo

感谢大佬的回复！以后优先现在邮箱这边讨论发现问题再去提个issue！我的 idleStateRetention确实是设置3600秒，我先进行测试看看。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-05-31 文章 Yun Tang

Hi, 先确定一下，你的 idleStateRetention 是 3600秒？其次，要想看是否所有数据均有用，可以利用 Checkpoints.loadCheckpointMeta [1] 去加载你所保留的checkpoint目录下的 _metadata 文件，然后与当前checkpoint目录下的文件作对比，看是否存在大量的未删除旧文件。目前仅凭你的描述和一段SQL代码其实很难判断。可能存在的原因有： 1. 单次checkpoint文件数目过多，JM单点删除跟不上相关速度 2. 整体checkpoint size不大，RocksDB的compaction频率

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-05-31 文章 yujianbo

没有更好的方式吗，这样治标不治本，那我大状态任务会有很多问题 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-05-31 文章 yujianbo

没有更好的方式吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-05-31 文章 HunterXHunter

关闭增量checkpoint -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-05-31 文章 yujianbo

有没有大佬帮忙看看 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sink kafka from checkpoint run failed

2021-05-31 文章 tianxy

我也遇到了请问你解决了没 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn 模式下，yarn集群的resource-manager切换导致flink应用程序重启，并且未从最后一次checkpoint恢复

2021-05-31 文章 Yang Wang

HA在ZK里面记录了最后一次成功的checkpoint counter和地址，没有启用HA的话，就是从指定的savepoint恢复的。 Best, Yang 刘建刚于2021年5月28日周五下午6:51写道： > 那应该是master failover后把快照信息丢失了，ha应该能解决这个问题。 > > 董建 <62...@163.com> 于2021年5月28日周五下午6:24写道： > > > 稳定复现 > > checkpoint 正常生成，在web ui和hdfs目录里边都可以确认。 >

Flink Sql 的/checkpoint/shared/文件夹大小不断增长，源数据没有数据激增，应该如何控制？

2021-05-31 文章 yujianbo

一、环境： 1、版本：1.12.0 2、flink sql 3、已经设置了setIdleStateRetention 为1小时 4、状态后端是rocksDB，增量模式 5、源数据没有数据激增情况，任务已经跑了两天二、详情具体sql见第三大点，就是普通的group by统计的 sql，然后设置setIdleStateRetention(3600)。目前观察两天了，checkpoint目录下面的shared文件夹的大小一直在增长，然后看文件夹里的文件是在一直更新，最早的文件也会消失。我sql的groupby维度有加一个具体的分钟

Re: Re: flink on yarn 模式下，yarn集群的resource-manager切换导致flink应用程序重启，并且未从最后一次checkpoint恢复

2021-05-28 文章刘建刚

那应该是master failover后把快照信息丢失了，ha应该能解决这个问题。董建 <62...@163.com> 于2021年5月28日周五下午6:24写道： > 稳定复现 > checkpoint 正常生成，在web ui和hdfs目录里边都可以确认。 > 我们jobmanager没有做ha，不知道是否是这个原因导致的？ > 日志里边能看到是从指定的-s恢复的，没有指定-s的时候，重启的时候也并没有使用最新的checkpoint文件。 > 目前这个问题困扰了我很久，也没

Re:Re: flink on yarn 模式下，yarn集群的resource-manager切换导致flink应用程序重启，并且未从最后一次checkpoint恢复

2021-05-28 文章董建

稳定复现 checkpoint 正常生成，在web ui和hdfs目录里边都可以确认。我们jobmanager没有做ha，不知道是否是这个原因导致的？日志里边能看到是从指定的-s恢复的，没有指定-s的时候，重启的时候也并没有使用最新的checkpoint文件。目前这个问题困扰了我很久，也没有一个好的思路，下一步先把ha搞起来再试试。 >> org.apache.flink.configuration.GlobalConfiguration [] - Loading >> configurat

Re: flink on yarn 模式下，yarn集群的resource-manager切换导致flink应用程序重启，并且未从最后一次checkpoint恢复

2021-05-28 文章刘建刚

这种情况是不符合预期的。请问通过以下步骤可以稳定复现吗？ 1、从savepoint恢复； 2、作业开始定期做savepoint； 3、作业failover。如果是的话，可能需要排查下checkpoint 文件是否存在，zookeeper上是否更新。如果还是有问题，需要通过日志来排查了。董建 <62...@163.com> 于2021年5月28日周五下午5:37写道： > 我遇到的问题现象是这样的 > > > > > 1、flink版本flink-1.12.2，启动命令如下，指定-s是因为job有做过cancel，这里重启。 &

flink on yarn 模式下，yarn集群的resource-manager切换导致flink应用程序重启，并且未从最后一次checkpoint恢复

2021-05-28 文章董建

prod 2、flink-conf.xml state.checkpoints.dir: hdfs:///user/flink/checkpoints/default 3、代码checkpoint设置 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setRestartStrategy(RestartStrategies.fixedDelayRestart(100, 10

Re: 集群重启如何保证带状态的任务自动从最近一个checkpoint恢复？

2021-05-26 文章 LakeShen

Hi，集群重启，具体是指什么重启呢，这个能在描述详细一点吗？ Best, LakeShen datayangl 于2021年5月26日周三上午9:43写道： > FixedDelaStrategy 默认是从最近一个ck > 恢复，其他的策略可以看官网。如果你是想问怎么实现的，不建议在邮件列表里问实现原理的问题。可以google找相关文章、相关flip 或者 > 直接debug源码。 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 集群重启如何保证带状态的任务自动从最近一个checkpoint恢复？

2021-05-25 文章 datayangl

FixedDelaStrategy 默认是从最近一个ck 恢复，其他的策略可以看官网。如果你是想问怎么实现的，不建议在邮件列表里问实现原理的问题。可以google找相关文章、相关flip 或者直接debug源码。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink checkpoint 数据清理问题

2021-05-22 文章 hk__lrzy

1. state.checkpoints.num-retained 设置保存checkpoint的数量。 2. 因为你写的本地文件，所以JM侧的集群是否只在checkpoint的metadata信息，而其他机器上保存着具体的state状态 -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink checkpoint 数据清理问题

2021-05-21 文章赵旭晨

背景：1.flink 集群模式 standalone HA ，共三台，zk选举jobmanager，1 active 1 standby 2.文件系统由于公司原因，没有用hdfs，用的本地文件系统 3.backend用的增量rocksdb 配置情况：进程分布情况如下: 问题：checkpoint数据在01（01是主jobmanager）上占用很小，但在02、03节点增长特别快，目前已占用数据盘90%的存储。但由于使用的是增量rocksdb，不敢随意删chekpoint数据，想问问大佬们： 1.是否有办法让flink自动清理过期checkpoint

flink sql运行在阿里云k8s用oss作为checkpoint存储介质出错

2021-05-21 文章 casel.chen

flink sql运行在阿里云k8s用oss作为checkpoint存储介质，在作业启动过程中出错，请问这个NoSuchKey是指什么？flink在获取checkpoint作restore吗？ 2021-05-21 10:56:10,278 INFO org.apache.flink.runtime.executiongraph.ExecutionGraph [] - Source: TableSourceScan(table=[[default_catalog, default_database, kafka_source]], fields=[id, acct_seq_id

????????????????????????????????????????????????checkpoint??????

2021-05-17 文章 5599

---- ??: ""<62...@163.com; : 2021??5??17??(??) 6:23 ??: "user-zh"

集群重启如何保证带状态的任务自动从最近一个checkpoint恢复？

2021-05-17 文章董建

集群重启如何保证带状态的任务自动从最近一个checkpoint恢复？

Re: Exception: Could not perform checkpoint

2021-05-17 文章 HunterXHunter

看源码是在 catch里面的（应该是在executeCheckpointing的时候报错了，但是catch里面还有一个nullpoint没catch导致程序退出）： if (LOG.isDebugEnabled()) { LOG.debug("{} - did NOT finish synchronous part of checkpoint {}. " + "Ali

Exception: Could not perform checkpoint

2021-05-16 文章 gen

Hi, all: 我的一个任务稳定运行了一段时间后，出现异常导致不断重启。版本 Flink 1.10，请问下从这个异常上看是业务的问题么，还是flink问题？ flink ui上日志为: 2021-05-14 16:12:30 java.lang.Exception: Could not perform checkpoint 6713 for operator Source: kafka topic[mt_elk_log] source -> Flat Map -> Sink: customerAccessLogIndex sin

Re: ./sql-client.sh embedded 这种方式提交的flink任务怎么设置state以及checkpoint?

2021-05-11 文章 JasonLee

hi 直接在 flink-conf.yaml 文件里面配置就行了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

./sql-client.sh embedded 这种方式提交的flink任务怎么设置state以及checkpoint?

2021-05-11 文章董建

如题 ./sql-client.sh embedded 这种方式提交的flink任务怎么设置state以及checkpoint? 还是只能把sql放在java里边，通过tableEnvironment.sqlQuery执行？

回复：Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-04-22 文章田向阳

唉，这个问题着实让人头大，我现在还没找到原因。你这边确定了跟我说一声哈 | | 田向阳 | | 邮箱：lucas_...@163.com | 签名由网易邮箱大师定制在2021年04月22日 20:56，张锴写道：你好，我也遇到了这个问题，你的checkpoint是怎么配置的，可以参考一下吗 Haihang Jing 于2021年3月23日周二下午8:04写道： > 你好，问题定位到了吗？ > 我也遇到了相同的问题，感觉和checkpoint interval有关 > 我有两个相同的作业（checkpoint interval > 设置

Re: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-04-22 文章张锴

你好，我也遇到了这个问题，你的checkpoint是怎么配置的，可以参考一下吗 Haihang Jing 于2021年3月23日周二下午8:04写道： > 你好，问题定位到了吗？ > 我也遇到了相同的问题，感觉和checkpoint interval有关 > 我有两个相同的作业（checkpoint interval > 设置的是3分钟），一个运行在flink1.9，一个运行在flink1.12，1.9的作业稳定运行，1.12的运行5小时就会checkpoint > 制作失败，抛异常 org.apache.flink.util.FlinkR

flink1.12.2使用rocksdb状态后端，checkpoint size变大

2021-04-22 文章 tianxy

。请问这个是什么原因呢？本来采取fsstatebackend，结果发现运行一段时间（比如几个小时后）就会突然出现ck 失败，5分钟内无法完成ck超时，看日志并不是作业报错，只是单纯的报以下错误： Checkpoint 19 of job dd7b3ab0ec365d23c5dfa25dcf53a730 expired before complet java.util.concurrent.CancellationException: null 请教大佬，求解答！ -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink任务日志告警:This does not compromise Flink's checkpoint integrity.

2021-04-20 文章 guoxb__...@sina.com

Hi all, 我这变flink任务日志发现，一直在报一个告警，告警内容是： ``` 2021-04-21 09:13:07,218 WARN org.apache.flink.streaming.connectors.kafka.internal.KafkaFetcher [] - Committing offsets to Kafka takes longer than the checkpoint interval. Skipping commit

flink任务日志告警:This does not compromise Flink's checkpoint integrity.

2021-04-20 文章 guoxb__...@sina.com

Hi all, 我这变flink任务日志发现，一直在报一个告警，告警内容是： ``` 2021-04-21 09:13:07,218 WARN org.apache.flink.streaming.connectors.kafka.internal.KafkaFetcher [] - Committing offsets to Kafka takes longer than the checkpoint interval. Skipping commit

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 Paul Lam

关于 chk 下只有 _metadata 的问题，大概是因为 state 比较小，被嵌入到 _medata 文件里了。可以参考这个配置项 [1]。 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#state-backend-fs-memory-threshold Best, Paul Lam > 2021年4月1日 16:25，lp <973182...@qq.com> 写道： > > 好的，谢谢 > > > > -- > Sent from:

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 lp

好的，谢谢 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 lp

如题，除了通过这种全局配置文件中的方式修改，能在程序中通过代码的方式修改吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 tison

Checkpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); >> env.setStateBackend(new FsStateBackend("file:///cp/eventCounter")); >> >> 请教几个问题： >> ①按照官网的介绍，目录数据应该是这样的 >> /user-defined-checkpoint-dir >> /{job-id}

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 tison

anup.RETAIN_ON_CANCELLATION); > env.setStateBackend(new FsStateBackend("file:///cp/eventCounter")); > > 请教几个问题： > ①按照官网的介绍，目录数据应该是这样的 > /user-defined-checkpoint-dir > /{job-id} > | > + --shared/ > + --taskowned/ > + --chk-1/ > + --chk-2

关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 lp

(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); env.setStateBackend(new FsStateBackend("file:///cp/eventCounter")); 请教几个问题： ①按照官网的介绍，目录数据应该是这样的 /user-defined-checkpoint-dir /{job-id} | + --shared/ + --taskowned/ + --chk-1/ + --chk-2/

Checkpoint Aligned问题

2021-03-30 文章张韩

Re: 相同的作业配置，Flink1.12 版本的作业checkpoint耗时增加以及制作失败，Flink1.9的作业运行正常

2021-03-30 文章 Yingjie Cao

这个应该不是FLINK-16404 <https://issues.apache.org/jira/browse/FLINK-16404>的影响，那个对checkpoint时间的影响比较小，是已经有一个benchmark测试的，1s的checkpoint interval也没什么大问题，我建议可以看一下失败的task的stack，看一下在干什么，可能排查问题更快一些。 Haihang Jing 于2021年3月24日周三下午12:06写道： > 【现象】相同配置的作业（checkpoint interval ：3分钟，作业逻辑：regular > join）

相同的作业配置，Flink1.12 版本的作业checkpoint耗时增加以及制作失败，Flink1.9的作业运行正常

2021-03-23 文章 Haihang Jing

【现象】相同配置的作业（checkpoint interval ：3分钟，作业逻辑：regular join），flink1.9运行正常，flink1.12运行一段时间后，checkpoint制作耗时增大，最后checkpoint制作失败。【分析】了解到flink1.10后对于checkpoint机制进行调整，接收端在barrier对齐时不会缓存单个barrier到达后的数据，意味着发送方必须在barrier对齐后等待credit feedback来传输数据，因此发送方会产生一定的冷启动，影响到延迟和网络吞吐量，因此调整checkpoint interval为10分钟进行对比测试，发现

Re: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-23 文章 Haihang Jing

你好，问题定位到了吗？我也遇到了相同的问题，感觉和checkpoint interval有关我有两个相同的作业（checkpoint interval 设置的是3分钟），一个运行在flink1.9，一个运行在flink1.12，1.9的作业稳定运行，1.12的运行5小时就会checkpoint 制作失败，抛异常 org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold. 当我把checkpoint interval调大到10分钟后，1.12的作业也可以稳定运行

Re: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-21 文章 Congxian Qiu

从日志看 checkpoint 超时了，可以尝试看一下是哪个算子的哪个并发没有做完 checkpoint，可以看看这篇文章[1] 能否帮助你 [1] https://www.infoq.cn/article/g8ylv3i2akmmzgccz8ku Best, Congxian Frost Wong 于2021年3月18日周四下午12:28写道： > 哦哦，我看到了有个 > > setTolerableCheckpointFailureNumber > > 之前不知道有这个方法，倒是可以试一下，不过我就是不太理

Re: Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 Gengshen Zhao

//ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#joins best, amenhub 发件人： Gengshen Zhao 发送时间： 2021-03-18 16:26 收件人： user-zh@flink.apache.org<mailto:user-zh@flink.apache.org> 主题： Flink SQL JDBC connector不能checkpoint Flink开发者们，你们好：我在使用flink开发过程中遇到一个问题，在使用jdbc做

Re: Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 Gengshen Zhao

//ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#joins best, amenhub 发件人： Gengshen Zhao 发送时间： 2021-03-18 16:26 收件人： user-zh@flink.apache.org<mailto:user-zh@flink.apache.org> 主题： Flink SQL JDBC connector不能checkpoint Flink开发者们，你们好：我在使用flink开发过程中遇到一个问题，在使用jdbc做

Re: Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 amenhub

hi, 请问使用的Flink版本是什么呢？猜测你应该是写成普通的join方式了，可参考 [1] [1] https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#joins best, amenhub 发件人： Gengshen Zhao 发送时间： 2021-03-18 16:26 收件人： user-zh@flink.apache.org 主题： Flink SQL JDBC connector不能checkpoint Flink开发者们，你们好：我

Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 Gengshen Zhao

Flink开发者们，你们好：我在使用flink开发过程中遇到一个问题，在使用jdbc做维度表关联时，该算子很快就finished了，从而导致无法正常的checkoint（我看源码中checkpoint前会检查所有算子状态必须为running），请问目前有什么参数可以使jdbc不finished或者在算子finished后依然可以checkpoint么？如果没有，那对这种情况的支持是否列入flink未来版本的开发计划中？期待你们的回信祝各位工作顺利，谢谢赵庚申赵庚申 Phone:15383463958 Email:gsz...@aibee.com<mailto:

Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 Gengshen Zhao

Flink开发者们，你们好：我在使用flink开发过程中遇到一个问题，在使用jdbc做维度表关联时，该算子很快就finished了，从而导致无法正常的checkoint（我看源码中checkpoint前会检查所有算子状态必须为running），请问目前有什么参数可以使jdbc不finished或者在算子finished后依然可以checkpoint么？如果没有，那对这种情况的支持是否列入flink未来版本的开发计划中？期待你们的回信祝各位工作顺利，谢谢赵庚申 Phone:15383463958 Email:gsz...@aibee.com<mailto:

回复: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-17 文章 Frost Wong

哦哦，我看到了有个 setTolerableCheckpointFailureNumber 之前不知道有这个方法，倒是可以试一下，不过我就是不太理解为什么会失败，也没有任何报错发件人: yidan zhao 发送时间: 2021年3月18日 3:47 收件人: user-zh 主题: Re: Flink 1.12.0 隔几个小时Checkpoint就会失败设置下检查点失败不影响任务呀，你这貌似还导致任务重启了？ Frost Wong 于2021年3月18日周四上午10:38写道： > Hi

Re: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-17 文章 yidan zhao

设置下检查点失败不影响任务呀，你这貌似还导致任务重启了？ Frost Wong 于2021年3月18日周四上午10:38写道： > Hi 大家好 > > 我用的Flink on yarn模式运行的一个任务，每隔几个小时就会出现一次错误 > > 2021-03-18 08:52:37,019 INFO > org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Completed > checkpoint 661818 for job 4fa72fc414f

Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-17 文章 Frost Wong

Hi 大家好我用的Flink on yarn模式运行的一个任务，每隔几个小时就会出现一次错误 2021-03-18 08:52:37,019 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator[] - Completed checkpoint 661818 for job 4fa72fc414f53e5ee062f9fbd5a2f4d5 (562357 bytes in 4699 ms). 2021-03-18 08:52:37,637 INFO

Re: 回复: Re:回复: flink-1.11.2 执行checkpoint失败

2021-03-10 文章 smallwong

任务会一直重启吗？ -- Sent from: http://apache-flink.147419.n8.nabble.com/

远程提交flink sql设置了checkpoint，flink sql没有jar包如何恢复呢？

2021-03-04 文章 huayuan

如题官方的恢复是flink run -s path xxx.jar 那么flink sql没有jar包如何恢复呢 StreamTableEnvironment bsTableEnv = StreamTableEnvironment.create(bsEnv, bsSettings); Configuration configuration = bsTableEnv.getConfig().getConfiguration(); configuration.setString("execution.savepoint.path","xxx")貌似不管用 -- Sent from:

Reply:回复：Flink checkpoint 速度慢问题请教

2021-03-02 文章 smq

我之前遇到过ck时间长，是因为反压比较高，你可以看看有没有反压的情况发自我的iPhone -- 原始邮件 -- From: Jacob <17691150...@163.com 发送时间: 03/02/2021, 18:02 To: user-zh http://apache-flink.147419.n8.nabble.com/

Reply:回复：Flink checkpoint 速度慢问题请教

2021-03-02 文章 smq

我之前遇到过ck时间长，是因为反压比较高，你可以看看有没有反压的情况发自我的iPhone -- 原始邮件 -- From: Jacob <17691150...@163.com 发送时间: 03/02/2021, 18:02 To: user-zh http://apache-flink.147419.n8.nabble.com/

Reply:回复：Flink checkpoint 速度慢问题请教

2021-03-02 文章 smq

我之前遇到过ck时间长，是因为反压比较高，你可以看看有没有反压的情况发自我的iPhone -- 原始邮件 -- From: Jacob <17691150...@163.com 发送时间: 03/02/2021, 18:02 To: user-zh http://apache-flink.147419.n8.nabble.com/

Reply:回复：Flink checkpoint 速度慢问题请教

2021-03-02 文章 smq

我之前遇到过ck 时间长，是因为反压比较高，你可以看看有没有反压的情况 -- 原始邮件 -- From: Jacob <17691150...@163.com 发送时间: 03/02/2021, 18:02 To: user-zh http://apache-flink.147419.n8.nabble.com/

Re: 回复：Flink checkpoint 速度慢问题请教

2021-03-02 文章 Jacob

谢谢回复看了数次checkpoint慢的情况，发现大多是async阶段耗时，如果是这样，那这应该是那个时刻网络原因导致的慢吧？但是我还是觉得跟磁盘有一定关系 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：Flink checkpoint 速度慢问题请教

2021-03-02 文章 tison

Hi Jacob, 能通过日志或监控判断是 checkpoint 时 snapshot 的 sync 阶段慢，还是 async 阶段慢，还是上传到 HDFS 时间长或是其他阶段的瓶颈吗？几十 KB 的状态慢很可能是某个步骤出故障卡住了。 Best, tison. yidan zhao 于2021年3月2日周二下午3:58写道： > 我比较奇怪的是再慢的磁盘，对于几十KB的状态也不至于“慢”吧。 > > Jacob <17691150...@163.com> 于2021年3月2日周二上午10:34写道： > > > 谢谢回

< 1 2 3 4 5 6 7 >

共有 698 项搜索結果，以下是第 101 - 200 matches

Mail list logo