SQL clinet端,checkpoint 恢复执行

2021-09-08 文章 outlook_3e5704ab57282...@outlook.com
您好: 版本:flink1.13 运行: flink sql 源表: 基于kafka建表 处理逻辑:简单过滤输出到hive 问题: 每1分钟做一次checkpoint,然后由于某原因需要取消任务,再次运行job如何继续从最新的checkpoint继续处理,在客户端设置了参数: execution.savepoint.path=hdfs:///user/flink/checkpoints/68e103c6ec9d8bfe459cb6c329ec696c

flink checkpoint 地址设置gs://xxx 提示 HftpFileSystem cannot access its superinterface TokenAspect

2021-09-08 文章 Wayne
EXACTLY_ONCE \ -checkpointTimeout 6000 \ -checkpointDir gs://xxx/checkpoint/purchase_hist \ -tolerableCheckpointFailureNumber 2 \ -asynchronousSnapshots true \ -externalizedCheckpointCleanup RETAIN_ON_CANCELLATION \ -stateBackendType 2 \ -enableIncremental true \ -type 0 引用的pom 依赖如下

回复: Re:flink checkpoint 到hdfs 报错

2021-09-02 文章 chengyanan1...@foxmail.com
. chengyanan1...@foxmail.com 发件人: 东东 发送时间: 2021-08-20 19:22 收件人: user-zh 主题: Re:Re:Re:flink checkpoint 到hdfs 报错 集群里的机器互相访问配的是内网地址呗,你这得开内网访问... 在 2021-08-20 18:56:58,"杨帅统" 写道: > > > > > > >test.gl.cdh.node1 对应的是远程服务器外网地址 139.9.132.* >192.168.0.32:9866是139.9.

回复:Flink on yarn的日志监控和checkpoint的监控生产是如何处理的?

2021-08-31 文章 JasonLee
Hi 可以参考这两篇文章: https://mp.weixin.qq.com/s/2S4M8p-rBRinIRxmZrZq5Q https://mp.weixin.qq.com/s/44SXmCAUOqSWhQrNiZftoQ Best JasonLee 在2021年08月31日 13:23,guanyq 写道: flink on yarn 在集群中启动很多的task,生产应用中是如何监控task的日志,和checkpoint的呢? 求大佬指导。

Flink on yarn的日志监控和checkpoint的监控生产是如何处理的?

2021-08-30 文章 guanyq
flink on yarn 在集群中启动很多的task,生产应用中是如何监控task的日志,和checkpoint的呢? 求大佬指导。

Re: Flink 从checkpoint恢复时,部分状态没有正确恢复

2021-08-30 文章 Benchao Li
st、map、row等等; > 然后再解释下这个结果不稳定的原因,这个是因为在底层的代码生成里面有一个优化,会按照类型进行分组,然后进行优化, > 但是这个分组的过程用的是一个HashMap[1],会导致字段顺序不是确定性的,有时候是这个顺序,有时候又是另外一个顺序, > 导致最终的BinaryRow的序列化结果是不稳定的,进而导致无法从checkpoint恢复。 > > 然后典型的多种变长类型,其实是varchar nullable 和 varchar not null 以及 > char(n),尤其是你这种用了很多常量字符串的场景, > 容易产

Re: Flink 从checkpoint恢复时,部分状态没有正确恢复

2021-08-30 文章 Benchao Li
BinaryRow的序列化结果是不稳定的,进而导致无法从checkpoint恢复。 然后典型的多种变长类型,其实是varchar nullable 和 varchar not null 以及 char(n),尤其是你这种用了很多常量字符串的场景, 容易产生后两种类型,在加上普通字段以及函数都会产生的第一种类型,就会触发这个bug了。 [1] https://github.com/apache/flink/blob/release-1.9/flink-table/flink-table-planner-blink/src/main/scala/org/apache/flink/table

Flink 从checkpoint恢复时,部分状态没有正确恢复

2021-08-25 文章 dixingxing
Hi Flink 社区: 我们的Flink版本是1.9.2,用的是blink planer,我们今天遇到一个问题,目前没有定位到原因,现象如下: 手动重启任务时,指定了从一个固定的checkpoint恢复时,有一定的概率,一部分状态数据无法正常恢复,启动后Flink任务本身可以正常运行,且日志中没有明显的报错信息。 具体现象是:type=realshow的数据没有从状态恢复,也就是从0开始累加,而type=show和type=click的数据是正常从状态恢复的。 SQL大致如下: createview view1 as select event_id, act_time

Re:Re:Re:flink checkpoint 到hdfs 报错

2021-08-20 文章 东东
2021-08-20 18:28:34,"东东" 写道: >>这不很清楚么,连 192.168.0.32:9866 超时啊 >> >> >> >> >>在 2021-08-20 18:13:10,"杨帅统" 写道: >>>// 开启checkpoint >>>env.enableCheckpointing(5000L, CheckpointingMode.EXACTLY_ONCE); >>> >>>

Re:Re:flink checkpoint 到hdfs 报错

2021-08-20 文章 杨帅统
test.gl.cdh.node1 对应的是远程服务器外网地址 139.9.132.* 192.168.0.32:9866是139.9.132.*机器的同一内网下的另一台内网地址 为啥会返回内网地址啊。。。 在 2021-08-20 18:28:34,"东东" 写道: >这不很清楚么,连 192.168.0.32:9866 超时啊 > > > > >在 2021-08-20 18:13:10,"杨帅统" 写道: >>//

Re:flink checkpoint 到hdfs 报错

2021-08-20 文章 东东
这不很清楚么,连 192.168.0.32:9866 超时啊 在 2021-08-20 18:13:10,"杨帅统" 写道: >// 开启checkpoint >env.enableCheckpointing(5000L, CheckpointingMode.EXACTLY_ONCE); > >env.getCheckpointConfig().setCheckpointStorage("hdfs://test.gl.cdh.node1:8020/flink/flink-cdc-demo"); >S

flink checkpoint 到hdfs 报错

2021-08-20 文章 杨帅统
// 开启checkpoint env.enableCheckpointing(5000L, CheckpointingMode.EXACTLY_ONCE); env.getCheckpointConfig().setCheckpointStorage("hdfs://test.gl.cdh.node1:8020/flink/flink-cdc-demo"); System.setProperty("HADOOP_USER_NAME", "root"); 报错信息如下: org.apache.hadoop.net.

Re:Flink HIve 文件,上游Kafak数据很大的时候,无法完成checkpoint

2021-08-13 文章 Michael Ran
batch 和数量小点呗 ~。~ 在 2021-08-12 10:09:21,"周瑞" 写道: 您好,Flink Hive 当上游的Kafka数据量特别大的时候,发现checkpoint一直无法完成,5分钟后报错了。请问这个问题要怎么解决

Flink HIve 文件,上游Kafak数据很大的时候,无法完成checkpoint

2021-08-11 文章 周瑞
您好,Flink Hive 当上游的Kafka数据量特别大的时候,发现checkpoint一直无法完成,5分钟后报错了。请问这个问题要怎么解决

Re: local运行模式下不会生成checkpoint吗?

2021-07-09 文章 Yun Tang
Hi 只要enable了checkpoint,一定会生成checkpoint的,这与你的运行模式无关。可以检查一下日志,看看JM端是否正常触发了checkpoint 祝好 唐云 From: casel.chen Sent: Tuesday, June 29, 2021 9:55 To: user-zh@flink.apache.org Subject: local运行模式下不会生成checkpoint吗? 我在本地使用local运行模式运行flink sql,将数据从kafka写到mongodb,mongodb

local运行模式下不会生成checkpoint吗?

2021-06-28 文章 casel.chen
我在本地使用local运行模式运行flink sql,将数据从kafka写到mongodb,mongodb connector是自己开发的,实现了CheckpointedFunction接口,debug的时候发现数据进来的时候有调用invoke方法,但没有调用initialState和snapshotState方法,我有设置enableCheckpoint,同样的程序使用kubernetes部署发现是会调用snapshotState方法。我的问题是:local运行模式下不会生成checkpoint吗?

Re: Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 JasonLee
hi 增大一下 taskmanager.memory.jvm-overhead 的内存试试 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 Smile
哪个版本的 Flink 啊,我们最近用 1.12.2 也有出现内存超限的情况,不过是 RocksDB,Savepoint 的时候内存增大。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复:检查点失败 Checkpoint Coordinator is suspending 。

2021-06-10 文章 Jason Lee
您好, Checkpoint Coordinator is suspending是那些等待执行的checkpoint检查点因为任务发生异常在停止顶定时任务的stopCheckpointScheduler()方法中被释放掉,所以日志中这个异常了; 具体什么问题害得详细看下是什么原因导致任务异常,是脏数据未处理异常还是怎样的,可能需要具体查看一下TM和JM日志,如果您这边发现具体原因可以同步一下 Best, JasonLee | | JaosnLee | | jasonlee1...@163.com | 签名由网易邮箱大师定制 在2021年06月10日 15:39,yidan

检查点失败 Checkpoint Coordinator is suspending 。

2021-06-10 文章 yidan zhao
如题,Checkpoint Coordinator is suspending 这种检查点失败是什么情况,timeout那种我理解是检查点执行时间长,超时了。但是 Checkpoint Coordinator is suspending 这个是什么含义呢?

Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 Jason Lee
各位社区伙伴大家好 首先描述一下我的问题:最近我们发现有几个任务平时运行将近一个月都没发生问题,最近在进行checkpoint的时候经常失败,然后一直容错恢复重启,我们通过日志查看,发现某个TM在进行checkpoint的时候内存使用过大导致内存不够被Kill掉了; 报错日志: java.lang.Exception: Container [pid=24859,containerID=container_e01_1618927404581_0181_01_002010] is running beyond physical memor y limits. Current usage

Re: Flink sql 状态过期后,checkpoint 大小没变化

2021-06-08 文章 chenchencc
你好,我也遇到这个问题,flink 1.12.2 sql,想问下 1.有什么方式能本地物理上删除那些ttl过期的数据吗 2.有什么方式能checkpoint时候删除ttl过期的数据吗?让checkpoint数据不再继续增长? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢 问题排查

2021-06-07 文章 yidan zhao
不是的哈,那个方法本身还是同步调用的。就是需要你自己保证逻辑的异步。 Jacob <17691150...@163.com> 于2021年6月8日周二 上午9:31写道: > > @nobleyd > 谢谢大神指导,前两天休息没看邮件,才回复,抱歉 > > 我后面把代码大概改成如下样子,checkpoint时间确实得到了改善,job运行几天正常 > > 我提供的线程池在asyncInvoke方法内部跑,这样是不是不合适呀,asyncInvoke方法本身是不是就是封装好的异步方法,就不用单独启线程池了吧?直接在asyncInvoke方法

Re: Flink checkpoint 速度很慢 问题排查

2021-06-07 文章 Jacob
@nobleyd 谢谢大神指导,前两天休息没看邮件,才回复,抱歉 我后面把代码大概改成如下样子,checkpoint时间确实得到了改善,job运行几天正常 我提供的线程池在asyncInvoke方法内部跑,这样是不是不合适呀,asyncInvoke方法本身是不是就是封装好的异步方法,就不用单独启线程池了吧?直接在asyncInvoke方法内部写处理逻辑就好。 public class AsyncProcessFunction extends RichAsyncFunction, List> { private transient ExecutorServ

Re: Flink checkpoint 速度很慢 问题排查

2021-06-06 文章 yidan zhao
可以的,本身异步操作的本质就是线程池。 至于是你自己提供线程池,去执行某个同步操作。还是直接使用client/sdk等封装的异步方法内部默认的线程池这个无所谓。 Jacob <17691150...@163.com> 于2021年6月5日周六 下午1:15写道: > > thanks, > > 我查看了相关文档[1] 由于redis以及hbase的交互地方比较多,比较零散,不光是查询,还有回写redis > > 我打算把之前map算子的整段逻辑以线程池的形式丢在asyncInvoke()方法内部,不知道合适与否,这样数据的顺序性就无法得到保障了吧? > > > > [1] >

Re: Flink checkpoint 速度很慢 问题排查

2021-06-04 文章 Jacob
thanks, 我查看了相关文档[1] 由于redis以及hbase的交互地方比较多,比较零散,不光是查询,还有回写redis 我打算把之前map算子的整段逻辑以线程池的形式丢在asyncInvoke()方法内部,不知道合适与否,这样数据的顺序性就无法得到保障了吧? [1] https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/dev/datastream/operators/asyncio/

Re: Flink checkpoint 速度很慢 问题排查

2021-06-04 文章 yidan zhao
官方就有文档。其实本质就是一个异步操作假设1ms,那么同步操作的1s也就能1000个操作,qps太低了。异步的话可以大大提高qps。 Jacob <17691150...@163.com> 于2021年6月4日周五 下午5:58写道: > > 嗯嗯 你的描述是对的,job的执行过程大致就是如此 > > > 我明白你意思了 > > 谢谢你提供的思路,我需要学习一下这个异步算子,之前从未接触过,不太清楚这具体是一个怎样的流程,请问你那边有相关的demo吗,或者该去具体去看哪部分的内容? > > > > > > - > Thanks! > Jacob > -- > Sent from:

Re: Flink checkpoint 速度很慢 问题排查

2021-06-04 文章 yidan zhao
> > 你估计用的是对齐检查点是吧? ---是的 > > > 同步访问,是因为我们要及时生成新数据,换做异步就无法即时拿到最新的结果数据了 > > 检查点我刚调整为非对齐方式了,从做完的十个checkpoint来看,state大小确实增加了,但速度尚未变快 > > > 消息量确实比较大,处理逻辑也较为复杂,处理逻辑算子的并行度我给了100,source并行度等于topic分区数 > > > > - > Thanks! > Jacob > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢 问题排查

2021-06-04 文章 yidan zhao
你任务A中的redis和hbase是异步还是同步访问,同步是肯定不行的。ckpt小是因为没啥状态,自然就小,时间长可能是数据对齐时间长,你估计用的是对齐检查点是吧? 如果换成非对齐检查点,时间应该能降下来,但是状态会变得很大,你可以试试。 最佳做法是,改造成异步的,不能同步。 JasonLee <17610775...@163.com> 于2021年6月4日周五 上午10:57写道: > > hi > > source 端的并发保持和 partition 的个数一样就行了,不要大于 partition 个数,因为这会导致 subtask > 空跑,浪费资源,你只需要把 map

Re: Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 JasonLee
hi source 端的并发保持和 partition 的个数一样就行了,不要大于 partition 个数,因为这会导致 subtask 空跑,浪费资源,你只需要把 map 的并行度调大即可. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 Jacob
@JasonLee 谢谢回复 A job 的背压情况如下图 我清楚job处理数据速度的确赶不上消息的生产速度这一事实,但暂时想不到一个合理的解决办法,并行度都已经设置的比较大了(从等于topic分区数量已经调整为大于partition数量了)。 我把各个task的并行度设置是一样的,让他们链在一个task上,从而优化线程切换的性能 其中 Map算子是最耗时的,所有的逻辑和数据加工都在这个Map算子,前后两个Flat Map

Re: Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 HunterXHunter
一般是 Job A出现背压了,checkpoint的时候是要等背压的数据都处理完了才会处理barrier。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 JasonLee
hi 你理解的可能有点偏差,应该是因为任务出现了反压或者数据倾斜的问题导致了cp时间长,01消息堆积说明已经反压到source端了,需要先定位反压的位置,看是具体什么原因导致的,然后再根据情况解决. - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 Jacob
@lian 谢谢回复 我通过webui查询,没有背压的情况。 hbase性能这块确实存在一定问题,公司的hbase性能一直不佳,但我的程序中,是先从缓存redis中取,大部分数据都能查到,只有少部分会查hbase。 谢谢你提供的思路,我将会从代码级别考虑,看是否能优化相关逻辑 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 Jacob
@lian 谢谢回复 我通过webui查询,没有背压的情况。 hbase性能这块确实存在一定问题,公司的hbase性能一直不佳,但我的程序中,是先从缓存redis中取,大部分数据都能查到,只有少部分会查hbase。 谢谢你提供的思路,我将会从代码级别考虑,看是否能优化相关逻辑 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/

回复:Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 lian
排查一下任务在执行过程中,是否有背压,以及在ck过程中,buffer积压了多少数据量。 很可能是在访问hbase的过程,性能不是很好。 在2021年06月03日 15:27,Jacob 写道: Dear all, 我有一个两个Flink Job A和B A job任务是消费kafka topic01数据,经过一系列逻辑加工,最终将数据sink到topic02 其中加工大致过程是:消费到topic01消息后,根据数据相关字段查询redis、查询hbase,然后组装业务数据(过程比较复杂),然后将业务数据写到另一个topic02,30s做一次checkpoint,state大小只有几

Flink checkpoint 速度很慢 问题排查

2021-06-03 文章 Jacob
Dear all, 我有一个两个Flink Job A和B A job任务是消费kafka topic01数据,经过一系列逻辑加工,最终将数据sink到topic02 其中加工大致过程是:消费到topic01消息后,根据数据相关字段查询redis、查询hbase,然后组装业务数据(过程比较复杂),然后将业务数据写到另一个topic02,30s做一次checkpoint,state大小只有几十kb,但做一次checkpoint平均需要两分钟,导致topic01消息产生堆积,实时性降低。 B job任务简单,消费上一步的的业务数据topic02,开一个半个小时的窗口将数据进行聚合

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-06-02 文章 yujianbo
好的非常感谢,我拿几个任务测试一波,看看性能能不能接受! Hi, 没有被引用的文件可能也不是完全无用的,可能是当前pending checkpoint正在上传的,所以还需要比较一下那些不在checkpoint meta内的文件的修改时间戳,可能比你分析的complete checkpoint的时间戳要大。 总体上来说,我不认为这个问题是一个bug,这个是LSM架构的DB的空间放大问题。如果你对空间放大非常担心的话,可以启用 dynamic level [1] 来严格控制空间放大,不过这个可能会影响写放大和读放大,导致性

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-06-02 文章 Yun Tang
Hi, 没有被引用的文件可能也不是完全无用的,可能是当前pending checkpoint正在上传的,所以还需要比较一下那些不在checkpoint meta内的文件的修改时间戳,可能比你分析的complete checkpoint的时间戳要大。 总体上来说,我不认为这个问题是一个bug,这个是LSM架构的DB的空间放大问题。如果你对空间放大非常担心的话,可以启用 dynamic level [1] 来严格控制空间放大,不过这个可能会影响写放大和读放大,导致性能受到一定影响。 [1] https://ci.apache.org/projects/flink/flink

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-06-02 文章 yujianbo
Hi, 确认的情况: 大佬,我根据loadCheckpointMeta能够去分析_metadata引用到的/shared目录下的sst文件,然后发现/shared里没有被引用的sst文件即未删除的旧文件,这些旧文件占比很少,只有5%左右。 配置: idleStateRetention确实是设置3600秒,保留的ck目录是3个。 目前情况: 每次checkpoint size增量差不多1-2G,所以size不小。5分钟checkpoint一次。 最近单次checkpoint的sst文件数是23个,文件大小大约在65M。 总共目前

flink sql cli 模式下,flink-conf.yaml 配置checkpoint无法生效

2021-06-02 文章 guozhi mang
各位好,我在flink1.13版本 的flink配置文件里配置checkpoint和savepoint参数时,相关配置项并没有生效,现将我的配置文件信息和日志放在下文。 *配置文件* #== # Fault tolerance and checkpointing

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-06-01 文章 HunterXHunter
那会一直增大下去吗,我跑了4天,ckp一直变大,没有稳定的迹象。是不是我需要调整compaction的配置 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-06-01 文章 Yun Tang
Hi, 增量checkpoint上传的是sst文件本身,里面可能有一部分空间是被无用数据占据的,你可以理解成增量checkpoint上传的是受到空间放大影响的RocksDB的数据,如果因为单机的数据量较小,没有及时触发compaction的话,确实存在整个远程checkpoint目录数据大于当前实际空间的情况。而关闭增量checkpoint,上传的其实是与savepoint格式一样的kv数据对,Flink会遍历整个DB,将目前有效的数据写出到远程。所以你关闭增量checkpoint,而发现checkpoint目录保持恒定大小的话,说明真实有效数据的空间是稳定的。 另外,其实不建议在日常

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 文章 HunterXHunter
我遇到过的问题就是开了 增量checkpoint后,checkpoint会越来越大,关闭之后checkpoint就正常了 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 文章 yujianbo
感谢大佬的回复!以后优先现在邮箱这边讨论发现问题再去提个issue! 我的 idleStateRetention确实是设置3600秒,我先进行测试看看。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 文章 Yun Tang
Hi, 先确定一下,你的 idleStateRetention 是 3600秒?其次,要想看是否所有数据均有用,可以利用 Checkpoints.loadCheckpointMeta [1] 去加载你所保留的checkpoint目录下的 _metadata 文件,然后与当前checkpoint目录下的文件作对比,看是否存在大量的未删除旧文件。 目前仅凭你的描述和一段SQL代码其实很难判断。 可能存在的原因有: 1. 单次checkpoint文件数目过多,JM单点删除跟不上相关速度 2. 整体checkpoint size不大,RocksDB的compaction频率

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 文章 yujianbo
没有更好的方式吗,这样治标不治本,那我大状态任务会有很多问题 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 文章 yujianbo
没有更好的方式吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 文章 HunterXHunter
关闭 增量checkpoint -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 文章 yujianbo
有没有大佬帮忙看看 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sink kafka from checkpoint run failed

2021-05-31 文章 tianxy
我也遇到了 请问你解决了没 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-31 文章 Yang Wang
HA在ZK里面记录了最后一次成功的checkpoint counter和地址,没有启用HA的话,就是从指定的savepoint恢复的。 Best, Yang 刘建刚 于2021年5月28日周五 下午6:51写道: > 那应该是master failover后把快照信息丢失了,ha应该能解决这个问题。 > > 董建 <62...@163.com> 于2021年5月28日周五 下午6:24写道: > > > 稳定复现 > > checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。 >

Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 文章 yujianbo
一、环境: 1、版本:1.12.0 2、flink sql 3、已经设置了setIdleStateRetention 为1小时 4、状态后端是rocksDB, 增量模式 5、源数据没有数据激增情况,任务已经跑了两天 二、详情 具体sql见第三大点,就是普通的group by统计的 sql,然后设置setIdleStateRetention(3600)。目前观察两天了,checkpoint目录下面的shared文件夹的大小一直在增长,然后看文件夹里的文件是在一直更新,最早的文件也会消失。 我sql的groupby维度有加一个具体的分钟

Re: Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-28 文章 刘建刚
那应该是master failover后把快照信息丢失了,ha应该能解决这个问题。 董建 <62...@163.com> 于2021年5月28日周五 下午6:24写道: > 稳定复现 > checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。 > 我们jobmanager没有做ha,不知道是否是这个原因导致的? > 日志里边能看到是从指定的-s恢复的,没有指定-s的时候,重启的时候也并没有使用最新的checkpoint文件。 > 目前这个问题困扰了我很久,也没

Re:Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-28 文章 董建
稳定复现 checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。 我们jobmanager没有做ha,不知道是否是这个原因导致的? 日志里边能看到是从指定的-s恢复的,没有指定-s的时候,重启的时候也并没有使用最新的checkpoint文件。 目前这个问题困扰了我很久,也没有一个好的思路,下一步先把ha搞起来再试试。 >> org.apache.flink.configuration.GlobalConfiguration [] - Loading >> configurat

Re: flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-28 文章 刘建刚
这种情况是不符合预期的。请问通过以下步骤可以稳定复现吗? 1、从savepoint恢复; 2、作业开始定期做savepoint; 3、作业failover。 如果是的话,可能需要排查下checkpoint 文件是否存在,zookeeper上是否更新。 如果还是有问题,需要通过日志来排查了。 董建 <62...@163.com> 于2021年5月28日周五 下午5:37写道: > 我遇到的问题现象是这样的 > > > > > 1、flink版本flink-1.12.2,启动命令如下,指定-s是因为job有做过cancel,这里重启。 &

flink on yarn 模式下,yarn集群的resource-manager切换导致flink应用程序重启,并且未从最后一次checkpoint恢复

2021-05-28 文章 董建
prod 2、flink-conf.xml state.checkpoints.dir: hdfs:///user/flink/checkpoints/default 3、代码checkpoint设置 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setRestartStrategy(RestartStrategies.fixedDelayRestart(100, 10

Re: 集群重启如何保证带状态的任务自动从最近一个checkpoint恢复?

2021-05-26 文章 LakeShen
Hi, 集群重启,具体是指什么重启呢,这个能在描述详细一点吗? Best, LakeShen datayangl 于2021年5月26日周三 上午9:43写道: > FixedDelaStrategy 默认是从最近一个ck > 恢复,其他的策略可以看官网。如果你是想问怎么实现的,不建议在邮件列表里问实现原理的问题。可以google找相关文章、相关flip 或者 > 直接debug源码。 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 集群重启如何保证带状态的任务自动从最近一个checkpoint恢复?

2021-05-25 文章 datayangl
FixedDelaStrategy 默认是从最近一个ck 恢复,其他的策略可以看官网。如果你是想问怎么实现的,不建议在邮件列表里问实现原理的问题。可以google找相关文章、相关flip 或者 直接debug源码。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink checkpoint 数据清理问题

2021-05-22 文章 hk__lrzy
1. state.checkpoints.num-retained 设置保存checkpoint的数量。 2. 因为你写的本地文件,所以JM侧的集群是否只在checkpoint的metadata信息,而其他机器上保存着具体的state状态 -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink checkpoint 数据清理问题

2021-05-21 文章 赵旭晨
背景:1.flink 集群模式 standalone HA ,共三台,zk选举jobmanager,1 active 1 standby 2.文件系统由于公司原因,没有用hdfs,用的本地文件系统 3.backend用的增量rocksdb 配置情况: 进程分布情况如下: 问题:checkpoint数据在01(01是主jobmanager)上占用很小,但在02、03节点增长特别快,目前已占用数据盘90%的存储。 但由于使用的是增量rocksdb,不敢随意删chekpoint数据,想问问大佬们: 1.是否有办法让flink自动清理过期checkpoint

flink sql运行在阿里云k8s用oss作为checkpoint存储介质出错

2021-05-21 文章 casel.chen
flink sql运行在阿里云k8s用oss作为checkpoint存储介质,在作业启动过程中出错,请问这个NoSuchKey是指什么?flink在获取checkpoint作restore吗? 2021-05-21 10:56:10,278 INFO org.apache.flink.runtime.executiongraph.ExecutionGraph [] - Source: TableSourceScan(table=[[default_catalog, default_database, kafka_source]], fields=[id, acct_seq_id

????????????????????????????????????????????????checkpoint??????

2021-05-17 文章 5599
---- ??: ""<62...@163.com; : 2021??5??17??(??) 6:23 ??: "user-zh"

集群重启如何保证带状态的任务自动从最近一个checkpoint恢复?

2021-05-17 文章 董建
集群重启如何保证带状态的任务自动从最近一个checkpoint恢复?

Re: Exception: Could not perform checkpoint

2021-05-17 文章 HunterXHunter
看源码是在 catch里面的(应该是在executeCheckpointing的时候报错了,但是catch里面还有一个nullpoint没catch导致程序退出): if (LOG.isDebugEnabled()) { LOG.debug("{} - did NOT finish synchronous part of checkpoint {}. " + "Ali

Exception: Could not perform checkpoint

2021-05-16 文章 gen
Hi, all: 我的一个任务 稳定运行了一段时间后, 出现异常 导致不断重启。 版本 Flink 1.10, 请问下 从这个异常上看是业务的问题么,还是flink问题? flink ui上日志为: 2021-05-14 16:12:30 java.lang.Exception: Could not perform checkpoint 6713 for operator Source: kafka topic[mt_elk_log] source -> Flat Map -> Sink: customerAccessLogIndex sin

Re: ./sql-client.sh embedded 这种方式提交的flink任务怎么设置state以及checkpoint?

2021-05-11 文章 JasonLee
hi 直接在 flink-conf.yaml 文件里面配置就行了 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

./sql-client.sh embedded 这种方式提交的flink任务怎么设置state以及checkpoint?

2021-05-11 文章 董建
如题 ./sql-client.sh embedded 这种方式提交的flink任务怎么设置state以及checkpoint? 还是只能把sql放在java里边,通过tableEnvironment.sqlQuery执行?

回复:Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-04-22 文章 田向阳
唉,这个问题着实让人头大,我现在还没找到原因。你这边确定了跟我说一声哈 | | 田向阳 | | 邮箱:lucas_...@163.com | 签名由 网易邮箱大师 定制 在2021年04月22日 20:56,张锴 写道: 你好,我也遇到了这个问题,你的checkpoint是怎么配置的,可以参考一下吗 Haihang Jing 于2021年3月23日周二 下午8:04写道: > 你好,问题定位到了吗? > 我也遇到了相同的问题,感觉和checkpoint interval有关 > 我有两个相同的作业(checkpoint interval > 设置

Re: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-04-22 文章 张锴
你好,我也遇到了这个问题,你的checkpoint是怎么配置的,可以参考一下吗 Haihang Jing 于2021年3月23日周二 下午8:04写道: > 你好,问题定位到了吗? > 我也遇到了相同的问题,感觉和checkpoint interval有关 > 我有两个相同的作业(checkpoint interval > 设置的是3分钟),一个运行在flink1.9,一个运行在flink1.12,1.9的作业稳定运行,1.12的运行5小时就会checkpoint > 制作失败,抛异常 org.apache.flink.util.FlinkR

flink1.12.2使用rocksdb状态后端,checkpoint size变大

2021-04-22 文章 tianxy
。 请问这个是什么原因呢? 本来采取fsstatebackend,结果发现 运行一段时间(比如几个小时后)就会突然出现ck 失败,5分钟内无法完成ck超时,看日志并不是作业报错,只是单纯的 报以下错误: Checkpoint 19 of job dd7b3ab0ec365d23c5dfa25dcf53a730 expired before complet java.util.concurrent.CancellationException: null 请教大佬,求解答! -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink任务日志告警:This does not compromise Flink's checkpoint integrity.

2021-04-20 文章 guoxb__...@sina.com
Hi all, 我这变flink任务日志发现,一直在报一个 告警,告警内容是: ``` 2021-04-21 09:13:07,218 WARN org.apache.flink.streaming.connectors.kafka.internal.KafkaFetcher [] - Committing offsets to Kafka takes longer than the checkpoint interval. Skipping commit

flink任务日志告警:This does not compromise Flink's checkpoint integrity.

2021-04-20 文章 guoxb__...@sina.com
Hi all, 我这变flink任务日志发现,一直在报一个 告警,告警内容是: ``` 2021-04-21 09:13:07,218 WARN org.apache.flink.streaming.connectors.kafka.internal.KafkaFetcher [] - Committing offsets to Kafka takes longer than the checkpoint interval. Skipping commit

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 Paul Lam
关于 chk 下只有 _metadata 的问题,大概是因为 state 比较小,被嵌入到 _medata 文件里了。可以参考这个配置项 [1]。 [1] https://ci.apache.org/projects/flink/flink-docs-release-1.12/deployment/config.html#state-backend-fs-memory-threshold Best, Paul Lam > 2021年4月1日 16:25,lp <973182...@qq.com> 写道: > > 好的,谢谢 > > > > -- > Sent from:

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 lp
好的,谢谢 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 lp
如题,除了通过这种全局配置文件中的方式修改,能在程序中通过代码的方式修改吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 tison
Checkpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); >> env.setStateBackend(new FsStateBackend("file:///cp/eventCounter")); >> >> 请教几个问题: >> ①按照官网的介绍,目录数据应该是这样的 >> /user-defined-checkpoint-dir >> /{job-id}

Re: 关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 tison
anup.RETAIN_ON_CANCELLATION); > env.setStateBackend(new FsStateBackend("file:///cp/eventCounter")); > > 请教几个问题: > ①按照官网的介绍,目录数据应该是这样的 > /user-defined-checkpoint-dir > /{job-id} > | > + --shared/ > + --taskowned/ > + --chk-1/ > + --chk-2

关于flink CheckPoint 状态数据保存的问题

2021-04-01 文章 lp
(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION); env.setStateBackend(new FsStateBackend("file:///cp/eventCounter")); 请教几个问题: ①按照官网的介绍,目录数据应该是这样的 /user-defined-checkpoint-dir /{job-id} | + --shared/ + --taskowned/ + --chk-1/ + --chk-2/

Checkpoint Aligned问题

2021-03-30 文章 张韩

Re: 相同的作业配置 ,Flink1.12 版本的作业checkpoint耗时增加以及制作失败,Flink1.9的作业运行正常

2021-03-30 文章 Yingjie Cao
这个应该不是FLINK-16404 <https://issues.apache.org/jira/browse/FLINK-16404>的影响,那个对checkpoint时间的影响比较小,是已经有一个benchmark测试的,1s的checkpoint interval也没什么大问题,我建议可以看一下失败的task的stack,看一下在干什么,可能排查问题更快一些。 Haihang Jing 于2021年3月24日周三 下午12:06写道: > 【现象】相同配置的作业(checkpoint interval :3分钟,作业逻辑:regular > join)

相同的作业配置 ,Flink1.12 版本的作业checkpoint耗时增加以及制作失败,Flink1.9的作业运行正常

2021-03-23 文章 Haihang Jing
【现象】相同配置的作业(checkpoint interval :3分钟,作业逻辑:regular join),flink1.9运行正常,flink1.12运行一段时间后,checkpoint制作耗时增大,最后checkpoint制作失败。 【分析】了解到flink1.10后对于checkpoint机制进行调整,接收端在barrier对齐时不会缓存单个barrier到达后的数据,意味着发送方必须在barrier对齐后等待credit feedback来传输数据,因此发送方会产生一定的冷启动,影响到延迟和网络吞吐量,因此调整checkpoint interval为10分钟进行对比测试,发现

Re: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-23 文章 Haihang Jing
你好,问题定位到了吗? 我也遇到了相同的问题,感觉和checkpoint interval有关 我有两个相同的作业(checkpoint interval 设置的是3分钟),一个运行在flink1.9,一个运行在flink1.12,1.9的作业稳定运行,1.12的运行5小时就会checkpoint 制作失败,抛异常 org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold. 当我把checkpoint interval调大到10分钟后,1.12的作业也可以稳定运行

Re: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-21 文章 Congxian Qiu
从日志看 checkpoint 超时了,可以尝试看一下是哪个算子的哪个并发没有做完 checkpoint,可以看看这篇文章[1] 能否帮助你 [1] https://www.infoq.cn/article/g8ylv3i2akmmzgccz8ku Best, Congxian Frost Wong 于2021年3月18日周四 下午12:28写道: > 哦哦,我看到了有个 > > setTolerableCheckpointFailureNumber > > 之前不知道有这个方法,倒是可以试一下,不过我就是不太理

Re: Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 Gengshen Zhao
//ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#joins best, amenhub 发件人: Gengshen Zhao 发送时间: 2021-03-18 16:26 收件人: user-zh@flink.apache.org<mailto:user-zh@flink.apache.org> 主题: Flink SQL JDBC connector不能checkpoint Flink开发者们,你们好: 我在使用flink开发过程中遇到一个问题,在使用jdbc做

Re: Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 Gengshen Zhao
//ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#joins best, amenhub 发件人: Gengshen Zhao 发送时间: 2021-03-18 16:26 收件人: user-zh@flink.apache.org<mailto:user-zh@flink.apache.org> 主题: Flink SQL JDBC connector不能checkpoint Flink开发者们,你们好: 我在使用flink开发过程中遇到一个问题,在使用jdbc做

Re: Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 amenhub
hi, 请问使用的Flink版本是什么呢?猜测你应该是写成普通的join方式了,可参考 [1] [1] https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/table/sql/queries.html#joins best, amenhub 发件人: Gengshen Zhao 发送时间: 2021-03-18 16:26 收件人: user-zh@flink.apache.org 主题: Flink SQL JDBC connector不能checkpoint Flink开发者们,你们好: 我

Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 Gengshen Zhao
Flink开发者们,你们好: 我在使用flink开发过程中遇到一个问题,在使用jdbc做维度表关联时,该算子很快就finished了,从而导致无法正常的checkoint(我看源码中checkpoint前会检查所有算子状态必须为running),请问目前有什么参数可以使jdbc不finished或者在算子finished后依然可以checkpoint么?如果没有,那对这种情况的支持是否列入flink未来版本的开发计划中? 期待你们的回信 祝各位工作顺利,谢谢 赵庚申 赵庚申 Phone:15383463958 Email:gsz...@aibee.com<mailto:

Flink SQL JDBC connector不能checkpoint

2021-03-18 文章 Gengshen Zhao
Flink开发者们,你们好: 我在使用flink开发过程中遇到一个问题,在使用jdbc做维度表关联时,该算子很快就finished了,从而导致无法正常的checkoint(我看源码中checkpoint前会检查所有算子状态必须为running),请问目前有什么参数可以使jdbc不finished或者在算子finished后依然可以checkpoint么?如果没有,那对这种情况的支持是否列入flink未来版本的开发计划中? 期待你们的回信 祝各位工作顺利,谢谢 赵庚申 Phone:15383463958 Email:gsz...@aibee.com<mailto:

回复: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-17 文章 Frost Wong
哦哦,我看到了有个 setTolerableCheckpointFailureNumber 之前不知道有这个方法,倒是可以试一下,不过我就是不太理解为什么会失败,也没有任何报错 发件人: yidan zhao 发送时间: 2021年3月18日 3:47 收件人: user-zh 主题: Re: Flink 1.12.0 隔几个小时Checkpoint就会失败 设置下检查点失败不影响任务呀,你这貌似还导致任务重启了? Frost Wong 于2021年3月18日周四 上午10:38写道: > Hi

Re: Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-17 文章 yidan zhao
设置下检查点失败不影响任务呀,你这貌似还导致任务重启了? Frost Wong 于2021年3月18日周四 上午10:38写道: > Hi 大家好 > > 我用的Flink on yarn模式运行的一个任务,每隔几个小时就会出现一次错误 > > 2021-03-18 08:52:37,019 INFO > org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Completed > checkpoint 661818 for job 4fa72fc414f

Flink 1.12.0 隔几个小时Checkpoint就会失败

2021-03-17 文章 Frost Wong
Hi 大家好 我用的Flink on yarn模式运行的一个任务,每隔几个小时就会出现一次错误 2021-03-18 08:52:37,019 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator[] - Completed checkpoint 661818 for job 4fa72fc414f53e5ee062f9fbd5a2f4d5 (562357 bytes in 4699 ms). 2021-03-18 08:52:37,637 INFO

Re: 回复: Re:回复: flink-1.11.2 执行checkpoint失败

2021-03-10 文章 smallwong
任务会一直重启吗? -- Sent from: http://apache-flink.147419.n8.nabble.com/

远程提交flink sql设置了checkpoint,flink sql没有jar包如何恢复呢?

2021-03-04 文章 huayuan
如题 官方的恢复是flink run -s path xxx.jar 那么flink sql没有jar包如何恢复呢 StreamTableEnvironment bsTableEnv = StreamTableEnvironment.create(bsEnv, bsSettings); Configuration configuration = bsTableEnv.getConfig().getConfiguration(); configuration.setString("execution.savepoint.path","xxx")貌似不管用 -- Sent from:

Reply:回复:Flink checkpoint 速度慢问题请教

2021-03-02 文章 smq
我之前遇到过ck时间长,是因为反压比较高,你可以看看有没有反压的情况 发自我的iPhone -- 原始邮件 -- From: Jacob <17691150...@163.com 发送时间: 03/02/2021, 18:02 To: user-zh http://apache-flink.147419.n8.nabble.com/

Reply:回复:Flink checkpoint 速度慢问题请教

2021-03-02 文章 smq
我之前遇到过ck时间长,是因为反压比较高,你可以看看有没有反压的情况 发自我的iPhone -- 原始邮件 -- From: Jacob <17691150...@163.com 发送时间: 03/02/2021, 18:02 To: user-zh http://apache-flink.147419.n8.nabble.com/

Reply:回复:Flink checkpoint 速度慢问题请教

2021-03-02 文章 smq
我之前遇到过ck时间长,是因为反压比较高,你可以看看有没有反压的情况 发自我的iPhone -- 原始邮件 -- From: Jacob <17691150...@163.com 发送时间: 03/02/2021, 18:02 To: user-zh http://apache-flink.147419.n8.nabble.com/

Reply:回复:Flink checkpoint 速度慢问题请教

2021-03-02 文章 smq
我之前遇到过ck 时间长,是因为反压比较高,你可以看看有没有反压的情况 -- 原始邮件 -- From: Jacob <17691150...@163.com 发送时间: 03/02/2021, 18:02 To: user-zh http://apache-flink.147419.n8.nabble.com/

Re: 回复:Flink checkpoint 速度慢问题请教

2021-03-02 文章 Jacob
谢谢回复 看了数次checkpoint慢的情况,发现大多是async阶段耗时,如果是这样,那这应该是那个时刻网络原因导致的慢吧? 但是我还是觉得跟磁盘有一定关系 - Thanks! Jacob -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:Flink checkpoint 速度慢问题请教

2021-03-02 文章 tison
Hi Jacob, 能通过日志或监控判断是 checkpoint 时 snapshot 的 sync 阶段慢,还是 async 阶段慢,还是上传到 HDFS 时间长或是其他阶段的瓶颈吗? 几十 KB 的状态慢很可能是某个步骤出故障卡住了。 Best, tison. yidan zhao 于2021年3月2日周二 下午3:58写道: > 我比较奇怪的是再慢的磁盘,对于几十KB的状态也不至于“慢”吧。 > > Jacob <17691150...@163.com> 于2021年3月2日周二 上午10:34写道: > > > 谢谢回

<    1   2   3   4   5   6   7   >