Re: flink1.13.2 -> 1.13.6 任务cpu从50%左右飙升到1000%,window算子故障。

2022-06-27 文章 yidan zhao
同时,貌似基于 ContinuousEventTimeTrigger 也是不行的。 对于key1的window1来说,第一个element进入时,注册的 window.maxTimestamp 肯定是10小时后才触发。 基于 ContinuousEventTimeTrigger 注册的 timestamp - (timestamp % interval) 也差不多是10小时后才触发。 现在来看,要么我再覆盖实现为原逻辑。 要么我就重新实现个基于 eventTime 的 ContinuousEventTimeTrigger,让持续注册的timestamp不再基于 element 的 ti

Re: flink1.13.2 -> 1.13.6 任务cpu从50%左右飙升到1000%,window算子故障。

2022-06-27 文章 yidan zhao
仔细回忆了下最初为啥要改造实现组合 eventTimeTrigger 和 continuousProcessTimeTrigger。还是因为我的watermark是latestTs-10小时,我是考虑如果出现了数据延迟10小时左右的情况,那么我恢复的时候,数据补充进来,如果使用 continuousEventTimeTrigger,10个小时的数据快速涌入,会快速导致很多此event time trigger。相当于单key单window,很快触发 10小时/10s =3600次,全key全window肯定会爆炸。 考虑到这种情况下,我期望基于processTime进行continuous

Re: flink1.13.2 -> 1.13.6 任务cpu从50%左右飙升到1000%,window算子故障。

2022-06-27 文章 yidan zhao
刚刚贴完代码,就分析除问题来了,如下。 我看了下,变化主要是 ContinuousProcessingTimeTrigger 中的注册 trigger 时的时间逻辑,加了个 long nextFireTimestamp = Math.min(time + interval, window.maxTimestamp()); 取min的逻辑。 我这个任务的watermark是latestTs-10小时,因为这个任务特别,压力不大,但对数据完整性要求高,综合考虑这么做的。 同时,为了避免10小时后才输出结果,而且需求上,窗口闭合前就需要输出结果,每10s一次,因此采用 continuousProc

Re: flink1.13.2 -> 1.13.6 任务cpu从50%左右飙升到1000%,window算子故障。

2022-06-27 文章 yidan zhao
对比实验了下,就是自定义的 trigger 问题,不清楚从1.13.2到1.13.6有啥不同。我的自定义trigger如下,内部就是组装了EventTimeTrigger和ContinuousProcessingTimeTrigger: public class ContinuousProcessTimeTriggerForEventTimeWindow extends Trigger { private final EventTimeTrigger eventTimeTrigger; private final ContinuousProcessing

Re: flink1.13.2 -> 1.13.6 任务cpu从50%左右飙升到1000%,window算子故障。

2022-06-27 文章 Shengkai Fang
Hi. 这种情况下可以用 jprofile 看看到底 cpu 花在哪里。你可以使用火焰图或者 jstack 看看具体的栈和使用。 Best, Shengkai yidan zhao 于2022年6月28日周二 10:44写道: > 目前现象如题。任务就是kafkaSource读取数据,简单过滤,然后window,然后输出到mysql。 > > 目前来看运行后1-2min后cpu开始异常,不是马上异常。 异常时候window算子busy为100%。 > window是event time window,配合自定义的 > continuousProcessTriggerForEvent

flink1.13.2 -> 1.13.6 任务cpu从50%左右飙升到1000%,window算子故障。

2022-06-27 文章 yidan zhao
目前现象如题。任务就是kafkaSource读取数据,简单过滤,然后window,然后输出到mysql。 目前来看运行后1-2min后cpu开始异常,不是马上异常。 异常时候window算子busy为100%。 window是event time window,配合自定义的 continuousProcessTriggerForEventTimeWindow(基于pt进行continuous trigger,但是统计窗口是et window)。 请问这种怎么排查呢?目前来看应该是卡在某个地方了,cancel任务后,直接等到tm失败。window算子百分百不会cancel成功。

Re: Flink k8s 作业提交流程

2022-06-27 文章 Lijie Wang
Hi, 使用文档可以查看: https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/resource-providers/native_kubernetes 设计文档可以查看: https://docs.google.com/document/d/1-jNzqGF6NfZuwVaFICoFQ5HFFXzF5NVIagUZByFMfBY/edit?usp=sharing jira: https://issues.apache.org/jira/browse/FLINK-9953 Best, Lijie hj

Flink-Kubernetes-operator error.

2022-06-27 文章 Murphy, Matthew
Hello Folks, Having an issue with the flink-kubernetes-operator. We are trying to delete an existing deployment in a customer namespace. The operator doesn't seem to pick up the deletion. I re-cycled the operator pod and see this. Seeing this error in operator logs: Operator Version 1.0

[ANNOUNCE] Apache Flink Kubernetes Operator 1.0.1 released

2022-06-27 文章 Gyula Fóra
The Apache Flink community is very happy to announce the release of Apache Flink Kubernetes Operator 1.0.1. The Flink Kubernetes Operator allows users to manage their Apache Flink applications and their lifecycle through native k8s tooling like kubectl.

Flink k8s ????????????

2022-06-27 文章 hjw
Flink version:1.15.0 ??1.15.0Flink??native k8s?Flink on Native k8s ??:)  

Re: 来自潘明文的邮件

2022-06-27 文章 Weihua Hu
Hi, 图片看不到了,正常来说做个 Sink 算子之间是没有执行先后顺序保证的,是可以并行的。 但是如果多个 sink 被 operator chain 优化在一起,单个 operator chain 内部数据是并行的 Best, Weihua On Fri, Jun 24, 2022 at 9:29 PM Lincoln Lee wrote: > Hi, >邮件中直接贴图片无法正常看到,可以发下文本 > > Best, > Lincoln Lee > > > 潘明文 于2022年6月24日周五 16:36写道: > > > 你好,下面2个SINK 能够并发同时处理吗?还是

Re: 任务 cancel 失败,个别 task 一直处于 CANCELING 状态

2022-06-27 文章 Weihua Hu
Hi, Task 长时间 Cancel 失败(默认 180s)会触发 watchdog 导致 TaskManager 主动退出,并定时输出日志打印当前 Task 线程执行的 thread 信息(默认 30s 一次),可以检查下 TaskManager 的日志,找一下关键字 but is stuck in method: Best, Weihua On Mon, Jun 27, 2022 at 6:45 PM Lijie Wang wrote: > Hi, > > 1. 建议贴下完整的 TM 日志和 jstack > 2. 可以看下 GC 日志,看下 GC 是否正常 > > Be

Re: 任务 cancel 失败,个别 task 一直处于 CANCELING 状态

2022-06-27 文章 Lijie Wang
Hi, 1. 建议贴下完整的 TM 日志和 jstack 2. 可以看下 GC 日志,看下 GC 是否正常 Best, Lijie 李辉 于2022年6月27日周一 15:46写道: > 求助:如题,Flink 版本 1.13.2,作业部署在 k8s > > 1、概览: > > > 2、被 hang 住的TM 日志,之后没有其他日志了,也没有异常: > > > > 3、jstack 分析,没有发现 Block 状态的线程 > > >

Re: flink1.15可以用jdk8吗

2022-06-27 文章 yuxia
可以用 jdk8 Best regards, Yuxia - 原始邮件 - 发件人: "yidan zhao" 收件人: "user-zh" 发送时间: 星期一, 2022年 6 月 27日 下午 5:11:22 主题: flink1.15可以用jdk8吗 如题,看官方提示要升级到jdk11。但是我下载了官方的flink1.15后,基于jdk8也是可以启动集群的。基于jdk11也是可以。

flink1.15可以用jdk8吗

2022-06-27 文章 yidan zhao
如题,看官方提示要升级到jdk11。但是我下载了官方的flink1.15后,基于jdk8也是可以启动集群的。基于jdk11也是可以。

Re: flink 1.14

2022-06-27 文章 yidan zhao
airflow~ RS 于2022年6月27日周一 09:11写道: > > Hi, > 这边是通过DolphinScheduler来调度的,里面也可以配置job之间的依赖 > 其他调度系统应该也有类似的功能 > > > Thanks~ > > > > > > 在 2022-04-29 16:03:15,"guanyq" 写道: > >咨询下各位大佬 > >flink sql在做批处理时,生产环境一般都用什么来做定时调度? > >如果存在job之间的依赖,生产环境是又是采用什么来做通知的? > > > > > >我这面主要是想把hive sql 修改为 flink sql

任务 cancel 失败,个别 task 一直处于 CANCELING 状态

2022-06-27 文章 李辉
求助:如题,Flink 版本 1.13.2,作业部署在 k8s 1、概览: 2、被 hang 住的TM 日志,之后没有其他日志了,也没有异常: 3、jstack 分析,没有发现 Block 状态的线程 taskmanager_mipha-69-taskmanager-1-18_thread_dump.json Description: application/json