Re: 检查点的start-delay、alignment duration理解。

2021-11-24 文章 yidan zhao
Task3就是compact,具体jstack可能有点复杂,本身每个算子在每个机器上都有,jstack也不好分辨具体那个线程。 目前来看我1h有100G的数据,使用的60并行度,这个配置按照我的其他流统计是没问题了,消费肯定没问题,不清楚是否受到hdfs性能的影响。 Caizhi Weng 于2021年11月25日周四 上午10:32写道: > Hi! > > 这个 checkpoint 时间的差距确实不太符合预期,因为 compact 一般都是比较快的。建议看一下 task3 的 jstack 以及 gc > 情况,确认是不是 task3 gc 严重阻塞 checkpoint,以及

Re: FlinkSql回撤流

2021-11-24 文章 wushijjian5
这个可以,非常感谢。 select user, sum(num * IF(flag=1, 1, 0)) as num > from ( > select user, ord, LAST_VALUE(num) as num, LAST_VALUE(flag) as flag > from tmpTable, > group by user, ord > ) t1 > group by user --- > 2021年11月25日 11:19,Tony Wei 写道: > > 上一封的 sql 稍微有誤,不需要 group by user, ord 才對: > >

Re: FlinkSql回撤流

2021-11-24 文章 Tony Wei
上一封的 sql 稍微有誤,不需要 group by user, ord 才對: select user, sum(num) as num > from ( > select user, ord, num * IF(flag=1, 1, -1) as num > from tmpTable > ) t1 > group by user 或者也可以考慮這種寫法: select user, sum(num * IF(flag=1, 1, 0)) as num > from ( > select user, ord, LAST_VALUE(num) as num, LAST

flink cancel和stop的区别。

2021-11-24 文章 yidan zhao
如题,我cancel的话timeout默认180s会关闭tm,想知道stop会不会,因为timeout不好控制,也不好实验。 有人知道是否stop能安全操作,至少不会导致tm失败,因为这样会导致其他任务也失败。

Re: Flink HIve 文件压缩报错

2021-11-24 文章 yidan zhao
hi,这个问题我也遇到了,不过我是因为自己删掉了文件。但是呢,我想说我删除的逻辑是按照带有success文件为标记的分区,然后删除该分区中.开头文件的。 目的在于避免部分情况下,分区中存在无用的.开头文件,导致文件系统inode爆炸。所以用定时任务进行了清理,清理逻辑就是仅仅针对success文件的分区。 但是现在发现也遇到了这个问题,而且导致了任务重启。 Rui Li 于2021年8月11日周三 下午8:57写道: > 目前没有办法让作业继续跑,只能重跑了 > > 这里有几个不同的问题: > 1. 文件是如何被删掉的,两种可能:被Flink误删(需要在Flink这边修复)、或者被Fl

Re: FlinkSql回撤流

2021-11-24 文章 Tony Wei
Hi, 對於這個 sql 的回撤流,我感覺沒什麼問題。原因是如果在 batch 執行模式下,首三行的輸出結果應該為: +--+---+ | user | num | +--+---+ | b | 20| +--+---+ 因為 user a 被 `where flag = 1` 過濾掉了,所以實際下游應該是撤回了 insert 的操作才對,而不是更新成 num = 0。 或許可以考慮把 sql 寫法改為這樣試試? select user, sum(num) as num > from ( > select use

Re: FlinkSQL源码分段优化中,物理计划转换为ExecNodeGraph的时候,SameRelObjectShuttle、SubplanReuseShuttle一拆一合目的是啥

2021-11-24 文章 Caizhi Weng
Hi! 这是因为我们有配置关闭 subplan reuse 和 source reuse,因此需要先把 plan 拆开,然后再判断是否允许 reuse,如果允许才能合并。 岳晗 于2021年11月24日周三 下午3:55写道: > Hi, > > > 请问下FlinkSQL物理计划转换为ExecNodeGraph的时候,拿到optimizedRelNodes后, > > > 首先执行:SameRelObjectShuttle Rewrite same rel object to different rel objects. > e.g. >       Join           

Re: 检查点的start-delay、alignment duration理解。

2021-11-24 文章 Caizhi Weng
Hi! 这个 checkpoint 时间的差距确实不太符合预期,因为 compact 一般都是比较快的。建议看一下 task3 的 jstack 以及 gc 情况,确认是不是 task3 gc 严重阻塞 checkpoint,以及 task3 具体在做什么。 yidan zhao 于2021年11月24日周三 下午7:03写道: > 如题,文档 > > https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/ops/monitoring/checkpoint_monitoring/ > 。 > > 我目前情况是,

Re: FlinkSql回撤流

2021-11-24 文章 wushijjian5
Hi, 这三条数据的话: new Tuple4<>("a", "a1",30,1),new Tuple4<>("b", "b1",20,1),new Tuple4<>("a","a1",30,0) 计算结果是: | +I | a | 30 | | +I | b | 20 | | -D | a | 30 | 实际想要的是 a 30 b

Re: FlinkSql回撤流

2021-11-24 文章 Caizhi Weng
Hi! 无法在 SQL 里获得第一列的操作符。但可以通过 table.execute().collect() 获得产生的 CloseableIterator,然后通过 Row#getKind 获得该 row 对应的 op。 顺便问一下,为什么需要在 SQL 里获得 op 呢?因为这个 op 应该只对内部算子以及 sink 有用,用户一般来说是不需要感知的。 wushijjian5 于2021年11月24日周三 下午9:05写道: > > DataStream> dataStream = > env.fromElements( > new Tuple4<>("a",

检查点的start-delay、alignment duration理解。

2021-11-24 文章 yidan zhao
如题,文档 https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/ops/monitoring/checkpoint_monitoring/ 。 我目前情况是,有个任务,从kafka读取数据,写hive,orc格式,带了compact功能,align 模式。 目前发现DAG为4个Task,分别为: Task1: Source: TableSourceScan ... ... -> streaming-writer 并行度60 Task2: compact-coordinator 并行度1 Task3: com