date:20211124

Re: 检查点的start-delay、alignment duration理解。

2021-11-24 文章 yidan zhao

Task3就是compact，具体jstack可能有点复杂，本身每个算子在每个机器上都有，jstack也不好分辨具体那个线程。目前来看我1h有100G的数据，使用的60并行度，这个配置按照我的其他流统计是没问题了，消费肯定没问题，不清楚是否受到hdfs性能的影响。 Caizhi Weng 于2021年11月25日周四上午10:32写道： > Hi！ > > 这个 checkpoint 时间的差距确实不太符合预期，因为 compact 一般都是比较快的。建议看一下 task3 的 jstack 以及 gc > 情况，确认是不是 task3 gc 严重阻塞 checkpoint，以及

Re: FlinkSql回撤流

2021-11-24 文章 wushijjian5

这个可以，非常感谢。 select user, sum(num * IF(flag=1, 1, 0)) as num > from ( > select user, ord, LAST_VALUE(num) as num, LAST_VALUE(flag) as flag > from tmpTable, > group by user, ord > ) t1 > group by user --- > 2021年11月25日 11:19，Tony Wei 写道： > > 上一封的 sql 稍微有誤，不需要 group by user, ord 才對： > >

Re: FlinkSql回撤流

2021-11-24 文章 Tony Wei

上一封的 sql 稍微有誤，不需要 group by user, ord 才對： select user, sum(num) as num > from ( > select user, ord, num * IF(flag=1, 1, -1) as num > from tmpTable > ) t1 > group by user 或者也可以考慮這種寫法： select user, sum(num * IF(flag=1, 1, 0)) as num > from ( > select user, ord, LAST_VALUE(num) as num, LAST

flink cancel和stop的区别。

2021-11-24 文章 yidan zhao

如题，我cancel的话timeout默认180s会关闭tm，想知道stop会不会，因为timeout不好控制，也不好实验。有人知道是否stop能安全操作，至少不会导致tm失败，因为这样会导致其他任务也失败。

Re: Flink HIve 文件压缩报错

2021-11-24 文章 yidan zhao

hi，这个问题我也遇到了，不过我是因为自己删掉了文件。但是呢，我想说我删除的逻辑是按照带有success文件为标记的分区，然后删除该分区中.开头文件的。目的在于避免部分情况下，分区中存在无用的.开头文件，导致文件系统inode爆炸。所以用定时任务进行了清理，清理逻辑就是仅仅针对success文件的分区。但是现在发现也遇到了这个问题，而且导致了任务重启。 Rui Li 于2021年8月11日周三下午8:57写道： > 目前没有办法让作业继续跑，只能重跑了 > > 这里有几个不同的问题： > 1. 文件是如何被删掉的，两种可能：被Flink误删（需要在Flink这边修复）、或者被Fl

Re: FlinkSql回撤流

2021-11-24 文章 Tony Wei

Hi, 對於這個 sql 的回撤流，我感覺沒什麼問題。原因是如果在 batch 執行模式下，首三行的輸出結果應該為： +--+---+ | user | num | +--+---+ | b | 20| +--+---+ 因為 user a 被 `where flag = 1` 過濾掉了，所以實際下游應該是撤回了 insert 的操作才對，而不是更新成 num = 0。或許可以考慮把 sql 寫法改為這樣試試？ select user, sum(num) as num > from ( > select use

Re: FlinkSQL源码分段优化中，物理计划转换为ExecNodeGraph的时候，SameRelObjectShuttle、SubplanReuseShuttle一拆一合目的是啥

2021-11-24 文章 Caizhi Weng

Hi！这是因为我们有配置关闭 subplan reuse 和 source reuse，因此需要先把 plan 拆开，然后再判断是否允许 reuse，如果允许才能合并。岳晗于2021年11月24日周三下午3:55写道： > Hi， > > > 请问下FlinkSQL物理计划转换为ExecNodeGraph的时候，拿到optimizedRelNodes后， > > > 首先执行：SameRelObjectShuttle Rewrite same rel object to different rel objects. > e.g. > Join

Re: 检查点的start-delay、alignment duration理解。

2021-11-24 文章 Caizhi Weng

Hi！这个 checkpoint 时间的差距确实不太符合预期，因为 compact 一般都是比较快的。建议看一下 task3 的 jstack 以及 gc 情况，确认是不是 task3 gc 严重阻塞 checkpoint，以及 task3 具体在做什么。 yidan zhao 于2021年11月24日周三下午7:03写道： > 如题，文档 > > https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/ops/monitoring/checkpoint_monitoring/ > 。 > > 我目前情况是，

Re: FlinkSql回撤流

2021-11-24 文章 wushijjian5

Hi, 这三条数据的话： new Tuple4<>("a", "a1",30,1),new Tuple4<>("b", "b1",20,1),new Tuple4<>("a","a1",30,0) 计算结果是： | +I | a | 30 | | +I | b | 20 | | -D | a | 30 | 实际想要的是 a 30 b

Re: FlinkSql回撤流

2021-11-24 文章 Caizhi Weng

Hi！无法在 SQL 里获得第一列的操作符。但可以通过 table.execute().collect() 获得产生的 CloseableIterator，然后通过 Row#getKind 获得该 row 对应的 op。顺便问一下，为什么需要在 SQL 里获得 op 呢？因为这个 op 应该只对内部算子以及 sink 有用，用户一般来说是不需要感知的。 wushijjian5 于2021年11月24日周三下午9:05写道： > > DataStream> dataStream = > env.fromElements( > new Tuple4<>("a",

检查点的start-delay、alignment duration理解。

2021-11-24 文章 yidan zhao

如题，文档 https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/ops/monitoring/checkpoint_monitoring/ 。我目前情况是，有个任务，从kafka读取数据，写hive，orc格式，带了compact功能，align 模式。目前发现DAG为4个Task，分别为： Task1: Source: TableSourceScan ... ... -> streaming-writer 并行度60 Task2: compact-coordinator 并行度1 Task3: com

Re: 检查点的start-delay、alignment duration理解。

Re: FlinkSql回撤流

Re: FlinkSql回撤流

flink cancel和stop的区别。

Re: Flink HIve 文件压缩报错

Re: FlinkSql回撤流

Re: FlinkSQL源码分段优化中，物理计划转换为ExecNodeGraph的时候，SameRelObjectShuttle、SubplanReuseShuttle一拆一合目的是啥

Re: 检查点的start-delay、alignment duration理解。

Re: FlinkSql回撤流

Re: FlinkSql回撤流

检查点的start-delay、alignment duration理解。

11 matches

Site Navigation

Mail list logo

Footer information