Re:Re: Re: Re: Re: Re: 修改flink的任务调度

2021-01-06 文章 penguin.
能否 将集群部署在yarn上,然后通过实现yarn的接口来做呢?好像yarn是提供了一个可插拔的接口进行资源调度之类的。











在 2021-01-07 13:05:59,"赵一旦"  写道:
>没有的。
>
>penguin.  于2021年1月7日周四 下午1:04写道:
>
>> 赵一旦:
>> 所以目前是否有办法来实现在提交任务后,将这个任务的subtask调度到指定机器的某个slot来执行呢。
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 在 2021-01-07 12:57:35,"赵一旦"  写道:
>> >不一样的哈。不是一个层次的东西。
>> >调度平台指的是在指定时间自动帮你提交某个任务,或者每天定时提交某个任务等。
>> >
>> >后者是flink内部的机制,指提交任务后,这个任务的每个subtask应该使用哪台机器哪个slot去执行。
>> >
>> >penguin.  于2021年1月7日周四 下午12:50写道:
>> >
>> >> 赵一旦:
>> >> 你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗?
>> >> 我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
>> >> 是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >> 在 2021-01-07 12:24:42,"赵一旦"  写道:
>> >> >你说的是任务调度有2层含义。一种任务调度平台(这个很常见)。还是flink自身的task的schedule,这个是很复杂。
>> >> >
>> >> >penguin.  于2021年1月7日周四 上午10:32写道:
>> >> >
>> >> >>
>> >> >>
>> >> >>
>> >> >> 我在知网的一篇论文中看到有作者做的flink任务调度,但是发了邮件很久也没人回复。
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >> 在 2021-01-07 10:21:27,"赵一旦"  写道:
>> >> >> >是的,之前有人给过我回复,说当前flink的调度信息不足,导致无法做到很理想的调度。
>> >> >> >
>> >> >> >penguin.  于2021年1月7日周四 上午10:11写道:
>> >> >> >
>> >> >> >>
>> >> >> >>
>> >> >>
>> >>
>> 我在jira上看到好像有人在做,但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码,不过源码注释好像很少,很困难。
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >> 在 2021-01-06 13:06:20,"赵一旦"  写道:
>> >> >> >> >我不是很清楚,不过难度应该很大,不然社区早改了。当前任务经常导致机器资源不均衡,这个问题很常见。
>> >> >> >> >
>> >> >> >> >penguin.  于2021年1月6日周三 上午11:15写道:
>> >> >> >> >
>> >> >> >> >> Hi,请问大家知道怎么更改flink默认的任务调度方式吗?
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >>
>> >>
>>


Re: Re: Re: Re: Re: 修改flink的任务调度

2021-01-06 文章 赵一旦
没有的。

penguin.  于2021年1月7日周四 下午1:04写道:

> 赵一旦:
> 所以目前是否有办法来实现在提交任务后,将这个任务的subtask调度到指定机器的某个slot来执行呢。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2021-01-07 12:57:35,"赵一旦"  写道:
> >不一样的哈。不是一个层次的东西。
> >调度平台指的是在指定时间自动帮你提交某个任务,或者每天定时提交某个任务等。
> >
> >后者是flink内部的机制,指提交任务后,这个任务的每个subtask应该使用哪台机器哪个slot去执行。
> >
> >penguin.  于2021年1月7日周四 下午12:50写道:
> >
> >> 赵一旦:
> >> 你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗?
> >> 我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
> >> 是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >> 在 2021-01-07 12:24:42,"赵一旦"  写道:
> >> >你说的是任务调度有2层含义。一种任务调度平台(这个很常见)。还是flink自身的task的schedule,这个是很复杂。
> >> >
> >> >penguin.  于2021年1月7日周四 上午10:32写道:
> >> >
> >> >>
> >> >>
> >> >>
> >> >> 我在知网的一篇论文中看到有作者做的flink任务调度,但是发了邮件很久也没人回复。
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >> 在 2021-01-07 10:21:27,"赵一旦"  写道:
> >> >> >是的,之前有人给过我回复,说当前flink的调度信息不足,导致无法做到很理想的调度。
> >> >> >
> >> >> >penguin.  于2021年1月7日周四 上午10:11写道:
> >> >> >
> >> >> >>
> >> >> >>
> >> >>
> >>
> 我在jira上看到好像有人在做,但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码,不过源码注释好像很少,很困难。
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >> 在 2021-01-06 13:06:20,"赵一旦"  写道:
> >> >> >> >我不是很清楚,不过难度应该很大,不然社区早改了。当前任务经常导致机器资源不均衡,这个问题很常见。
> >> >> >> >
> >> >> >> >penguin.  于2021年1月6日周三 上午11:15写道:
> >> >> >> >
> >> >> >> >> Hi,请问大家知道怎么更改flink默认的任务调度方式吗?
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >>
> >>
>


Re:Re: Re: Re: Re: 修改flink的任务调度

2021-01-06 文章 penguin.
赵一旦:
所以目前是否有办法来实现在提交任务后,将这个任务的subtask调度到指定机器的某个slot来执行呢。














在 2021-01-07 12:57:35,"赵一旦"  写道:
>不一样的哈。不是一个层次的东西。
>调度平台指的是在指定时间自动帮你提交某个任务,或者每天定时提交某个任务等。
>
>后者是flink内部的机制,指提交任务后,这个任务的每个subtask应该使用哪台机器哪个slot去执行。
>
>penguin.  于2021年1月7日周四 下午12:50写道:
>
>> 赵一旦:
>> 你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗?
>> 我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
>> 是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 在 2021-01-07 12:24:42,"赵一旦"  写道:
>> >你说的是任务调度有2层含义。一种任务调度平台(这个很常见)。还是flink自身的task的schedule,这个是很复杂。
>> >
>> >penguin.  于2021年1月7日周四 上午10:32写道:
>> >
>> >>
>> >>
>> >>
>> >> 我在知网的一篇论文中看到有作者做的flink任务调度,但是发了邮件很久也没人回复。
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >> 在 2021-01-07 10:21:27,"赵一旦"  写道:
>> >> >是的,之前有人给过我回复,说当前flink的调度信息不足,导致无法做到很理想的调度。
>> >> >
>> >> >penguin.  于2021年1月7日周四 上午10:11写道:
>> >> >
>> >> >>
>> >> >>
>> >>
>> 我在jira上看到好像有人在做,但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码,不过源码注释好像很少,很困难。
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >> 在 2021-01-06 13:06:20,"赵一旦"  写道:
>> >> >> >我不是很清楚,不过难度应该很大,不然社区早改了。当前任务经常导致机器资源不均衡,这个问题很常见。
>> >> >> >
>> >> >> >penguin.  于2021年1月6日周三 上午11:15写道:
>> >> >> >
>> >> >> >> Hi,请问大家知道怎么更改flink默认的任务调度方式吗?
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >>
>>


Re: Re: Re: Re: 修改flink的任务调度

2021-01-06 文章 赵一旦
不一样的哈。不是一个层次的东西。
调度平台指的是在指定时间自动帮你提交某个任务,或者每天定时提交某个任务等。

后者是flink内部的机制,指提交任务后,这个任务的每个subtask应该使用哪台机器哪个slot去执行。

penguin.  于2021年1月7日周四 下午12:50写道:

> 赵一旦:
> 你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗?
> 我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
> 是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2021-01-07 12:24:42,"赵一旦"  写道:
> >你说的是任务调度有2层含义。一种任务调度平台(这个很常见)。还是flink自身的task的schedule,这个是很复杂。
> >
> >penguin.  于2021年1月7日周四 上午10:32写道:
> >
> >>
> >>
> >>
> >> 我在知网的一篇论文中看到有作者做的flink任务调度,但是发了邮件很久也没人回复。
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >> 在 2021-01-07 10:21:27,"赵一旦"  写道:
> >> >是的,之前有人给过我回复,说当前flink的调度信息不足,导致无法做到很理想的调度。
> >> >
> >> >penguin.  于2021年1月7日周四 上午10:11写道:
> >> >
> >> >>
> >> >>
> >>
> 我在jira上看到好像有人在做,但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码,不过源码注释好像很少,很困难。
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >> 在 2021-01-06 13:06:20,"赵一旦"  写道:
> >> >> >我不是很清楚,不过难度应该很大,不然社区早改了。当前任务经常导致机器资源不均衡,这个问题很常见。
> >> >> >
> >> >> >penguin.  于2021年1月6日周三 上午11:15写道:
> >> >> >
> >> >> >> Hi,请问大家知道怎么更改flink默认的任务调度方式吗?
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >>
>


Re:Re: Re: Re: 修改flink的任务调度

2021-01-06 文章 penguin.
赵一旦:
你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗?
我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。














在 2021-01-07 12:24:42,"赵一旦"  写道:
>你说的是任务调度有2层含义。一种任务调度平台(这个很常见)。还是flink自身的task的schedule,这个是很复杂。
>
>penguin.  于2021年1月7日周四 上午10:32写道:
>
>>
>>
>>
>> 我在知网的一篇论文中看到有作者做的flink任务调度,但是发了邮件很久也没人回复。
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 在 2021-01-07 10:21:27,"赵一旦"  写道:
>> >是的,之前有人给过我回复,说当前flink的调度信息不足,导致无法做到很理想的调度。
>> >
>> >penguin.  于2021年1月7日周四 上午10:11写道:
>> >
>> >>
>> >>
>> 我在jira上看到好像有人在做,但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码,不过源码注释好像很少,很困难。
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >> 在 2021-01-06 13:06:20,"赵一旦"  写道:
>> >> >我不是很清楚,不过难度应该很大,不然社区早改了。当前任务经常导致机器资源不均衡,这个问题很常见。
>> >> >
>> >> >penguin.  于2021年1月6日周三 上午11:15写道:
>> >> >
>> >> >> Hi,请问大家知道怎么更改flink默认的任务调度方式吗?
>> >>
>> >>
>> >>
>> >>
>> >>
>>


Re: Re: Re: 修改flink的任务调度

2021-01-06 文章 赵一旦
你说的是任务调度有2层含义。一种任务调度平台(这个很常见)。还是flink自身的task的schedule,这个是很复杂。

penguin.  于2021年1月7日周四 上午10:32写道:

>
>
>
> 我在知网的一篇论文中看到有作者做的flink任务调度,但是发了邮件很久也没人回复。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2021-01-07 10:21:27,"赵一旦"  写道:
> >是的,之前有人给过我回复,说当前flink的调度信息不足,导致无法做到很理想的调度。
> >
> >penguin.  于2021年1月7日周四 上午10:11写道:
> >
> >>
> >>
> 我在jira上看到好像有人在做,但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码,不过源码注释好像很少,很困难。
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >> 在 2021-01-06 13:06:20,"赵一旦"  写道:
> >> >我不是很清楚,不过难度应该很大,不然社区早改了。当前任务经常导致机器资源不均衡,这个问题很常见。
> >> >
> >> >penguin.  于2021年1月6日周三 上午11:15写道:
> >> >
> >> >> Hi,请问大家知道怎么更改flink默认的任务调度方式吗?
> >>
> >>
> >>
> >>
> >>
>


Flink 1.11.2版本 实时任务运行 报错 is running beyond physical memory limits. Current usage: 25.0 GB of 25 GB physical memory used; 28.3 GB of 52.5 GB virtual memory used. Killing container

2021-01-06 文章 Yang Peng
Hi,

 
大家好,咨询一个问题,我们有个实时任务运行在Flink1.11.2版本,使用rocksdbstatebackend,最近报警出现了物理内存超限被kill的异常信息,我们查看了监控taskmanager
heap使用量没有超限,direct内存使用量也维持在一个平稳的范围内没有超限,也没有报oom,这种情况是非堆内存异常是吗?完整报错信息如下:

Dump of the process-tree for container_e06_1603181034156_0137_01_02 :
|- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS)
SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES)
FULL_CMD_LINE
|- 180421 180362 180362 180362 (java) 258262921 59979106 30306209792
6553277 /usr/jdk64/jdk1.8.0_152/bin/java -XX:+UseSerialGC
-Xmx11542724608 -Xms11542724608 -XX:MaxDirectMemorySize=1207959552
-XX:MaxMetaspaceSize=268435456
-Dlog.file=/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.log
-Dlog4j.configuration=file:./log4j.properties
-Dlog4j.configurationFile=file:./log4j.properties
org.apache.flink.yarn.YarnTaskExecutorRunner -D
taskmanager.memory.framework.off-heap.size=134217728b -D
taskmanager.memory.network.max=1073741824b -D
taskmanager.memory.network.min=1073741824b -D
taskmanager.memory.framework.heap.size=134217728b -D
taskmanager.memory.managed.size=12750684160b -D
taskmanager.cpu.cores=1.0 -D
taskmanager.memory.task.heap.size=11408506880b -D
taskmanager.memory.task.off-heap.size=0b --configDir .
-Djobmanager.rpc.address=flink-cm8.jd.163.org -Dweb.port=0
-Dweb.tmpdir=/tmp/flink-web-9197a884-03b9-4865-a0a0-0b6a1c295f2c
-Djobmanager.rpc.port=33656 -Drest.address=flink-cm8.jd.163.org
-Dsecurity.kerberos.login.keytab=/mnt/ssd/3/yarn/local/usercache/portal/appcache/application_1603181034156_0137/container_e06_1603181034156_0137_01_01/krb5.keytab
|- 180362 180360 180362 180362 (bash) 0 2 116011008 353 /bin/bash -c
/usr/jdk64/jdk1.8.0_152/bin/java -XX:+UseSerialGC -Xmx11542724608
-Xms11542724608 -XX:MaxDirectMemorySize=1207959552
-XX:MaxMetaspaceSize=268435456
-Dlog.file=/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.log
-Dlog4j.configuration=file:./log4j.properties
-Dlog4j.configurationFile=file:./log4j.properties
org.apache.flink.yarn.YarnTaskExecutorRunner -D
taskmanager.memory.framework.off-heap.size=134217728b -D
taskmanager.memory.network.max=1073741824b -D
taskmanager.memory.network.min=1073741824b -D
taskmanager.memory.framework.heap.size=134217728b -D
taskmanager.memory.managed.size=12750684160b -D
taskmanager.cpu.cores=1.0 -D
taskmanager.memory.task.heap.size=11408506880b -D
taskmanager.memory.task.off-heap.size=0b --configDir .
-Djobmanager.rpc.address='flink-cm8.jd.163.org' -Dweb.port='0'
-Dweb.tmpdir='/tmp/flink-web-9197a884-03b9-4865-a0a0-0b6a1c295f2c'
-Djobmanager.rpc.port='33656' -Drest.address='flink-cm8.jd.163.org'
-Dsecurity.kerberos.login.keytab='/mnt/ssd/3/yarn/local/usercache/portal/appcache/application_1603181034156_0137/container_e06_1603181034156_0137_01_01/krb5.keytab'
1> 
/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.out
2> 
/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.err

Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

2021-01-07 11:51:00,781 INFO
org.apache.flink.runtime.executiongraph.ExecutionGraph   [] -
Source: 银河SDK原始日志 (18/90) (51ac2f29df472d001ce9b4307636ac1c) switched
from RUNNING to FAILED on
org.apache.flink.runtime.jobmaster.slotpool.SingleLogicalSlot@1aad00fa.
java.lang.Exception: Container
[pid=180362,containerID=container_e06_1603181034156_0137_01_02] is
running beyond physical memory limits. Current usage: 25.0 GB of 25 GB
physical memory used; 28.3 GB of 52.5 GB virtual memory used. Killing
container.
Dump of the process-tree for container_e06_1603181034156_0137_01_02 :
|- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS)
SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES)
FULL_CMD_LINE
|- 180421 180362 180362 180362 (java) 258262921 59979106 30306209792
6553277 /usr/jdk64/jdk1.8.0_152/bin/java -XX:+UseSerialGC
-Xmx11542724608 -Xms11542724608 -XX:MaxDirectMemorySize=1207959552
-XX:MaxMetaspaceSize=268435456
-Dlog.file=/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.log
-Dlog4j.configuration=file:./log4j.properties
-Dlog4j.configurationFile=file:./log4j.properties
org.apache.flink.yarn.YarnTaskExecutorRunner -D
taskmanager.memory.framework.off-heap.size=134217728b -D
taskmanager.memory.network.max=1073741824b -D
taskmanager.memory.network.min=1073741824b -D
taskmanager.memory.framework.heap.size=134217728b -D
taskmanager.memory.managed.size=12750684160b -D
taskmanager.cpu.cores=1.0 -D
taskmanager.memory.task.heap.size=11408506880b -D
taskmanager.memory.task.off-heap.size=0b --configDir .
-Djobmanager.rpc.address=flink-cm8.jd.163.org -Dweb.port=0
-Dweb.tmpdir=/tmp/flink-web-9197a884-03b9-4865-a0a0-0b6a1c295f2c
-Djobmanager.rpc.port=33656 -Drest.address=flink-cm8.jd.163.org

Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-06 文章 jiangjiguang719
我们当前的实现是,每分钟调用yarn的rest api 获取作业状态,和实时计算平台上的作业状态对比,如果挂掉就电话报警,同时平台上作业状态修改为运行异常




在 2021-01-06 16:35:05,"bradyMk"  写道:
>Hi,请教大家一个问题:
>
>目前使用grafana监控flink的作业,想实现一个任务挂掉就报警的功能,初步想法是:监控checkpoint
>size的指标,一旦这个指标为0,就认为任务挂掉,但实际操作后,发现了两个问题:
>
>① 如果kill掉任务,grafana上的flink所有指标都会一直保持最后接收到的值不变;
>② 如果cancel掉任务,grafana上的flink所有指标都会突然中断;
>
>所以,我上面说的想法永远都不会出发告警,因为这个checkpoint size的指标在任务挂掉也不会归为0值;
>
>我又尝试了用一分钟前的job_uptime减去一分钟后的job_uptime,但是这样报警并不优雅,在任务刚启动时会有误报,因为任务刚启动时,一分钟前是没有数据的。
>
>所以现在很疑惑,请教一下大家如果用grafana监控flink作业的,该选用什么样的指标和用什么规则,可以优雅的报警呢?
>
>
>
>-
>Best Wishes
>--
>Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Flink CVE补丁会打在1.10版本吗

2021-01-06 文章 zilong xiao
Hi Luna,
可以找到对应的commit,将其修改cherry pick到自己的工程重新打包

祝好~

Luna Wong  于2021年1月7日周四 上午10:44写道:

> Flink 那个两个CVE的Patch 会打在1.10.4这个版本吗。目前修复版本是 1.11.3 1.12.0 ,很多生成还都在1.10
> 不好直接升级的。
>


Re: flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-06 文章 Yun Tang
Hi

可以使用 numRestarts [1] 
指标进行报警,不过需要维护状态,也就是该值增大时报警。对于旧版本Flink,可以使用以及废弃的fullRestarts 指标。


[1] 
https://ci.apache.org/projects/flink/flink-docs-stable/ops/metrics.html#availability

祝好
唐云

From: bradyMk 
Sent: Wednesday, January 6, 2021 18:57
To: user-zh@flink.apache.org 
Subject: Re: flink作业通过grafana监控,若想发出报警该如何选择指标的问题

Hi~

我现在也有在用这个办法,可我任务特别多的话,还要求及时报警并发送消息到钉钉群到邮件,这种方法就不太好了



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Flink CVE补丁会打在1.10版本吗

2021-01-06 文章 Luna Wong
Flink 那个两个CVE的Patch 会打在1.10.4这个版本吗。目前修复版本是 1.11.3 1.12.0 ,很多生成还都在1.10 不好直接升级的。


Re:Re: Re: 修改flink的任务调度

2021-01-06 文章 penguin.



我在知网的一篇论文中看到有作者做的flink任务调度,但是发了邮件很久也没人回复。














在 2021-01-07 10:21:27,"赵一旦"  写道:
>是的,之前有人给过我回复,说当前flink的调度信息不足,导致无法做到很理想的调度。
>
>penguin.  于2021年1月7日周四 上午10:11写道:
>
>>
>> 我在jira上看到好像有人在做,但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码,不过源码注释好像很少,很困难。
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 在 2021-01-06 13:06:20,"赵一旦"  写道:
>> >我不是很清楚,不过难度应该很大,不然社区早改了。当前任务经常导致机器资源不均衡,这个问题很常见。
>> >
>> >penguin.  于2021年1月6日周三 上午11:15写道:
>> >
>> >> Hi,请问大家知道怎么更改flink默认的任务调度方式吗?
>>
>>
>>
>>
>>


Re: Re: 修改flink的任务调度

2021-01-06 文章 赵一旦
是的,之前有人给过我回复,说当前flink的调度信息不足,导致无法做到很理想的调度。

penguin.  于2021年1月7日周四 上午10:11写道:

>
> 我在jira上看到好像有人在做,但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码,不过源码注释好像很少,很困难。
>
>
>
>
>
>
>
>
>
> 在 2021-01-06 13:06:20,"赵一旦"  写道:
> >我不是很清楚,不过难度应该很大,不然社区早改了。当前任务经常导致机器资源不均衡,这个问题很常见。
> >
> >penguin.  于2021年1月6日周三 上午11:15写道:
> >
> >> Hi,请问大家知道怎么更改flink默认的任务调度方式吗?
>
>
>
>
>


Re:Re: 修改flink的任务调度

2021-01-06 文章 penguin.
我在jira上看到好像有人在做,但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码,不过源码注释好像很少,很困难。























在 2021-01-06 13:06:20,"赵一旦"  写道:
>我不是很清楚,不过难度应该很大,不然社区早改了。当前任务经常导致机器资源不均衡,这个问题很常见。
>
>penguin.  于2021年1月6日周三 上午11:15写道:
>
>> Hi,请问大家知道怎么更改flink默认的任务调度方式吗?


flink-kafka-sink

2021-01-06 文章 cxx
 我从kafka消费一条数据,然后将消息进行切分,再发送到下游的kafka中,但是这样不能保证在一个事务里面。
例如:我将一条数据切分成10条,然后再第五条的时候抛出一个异常,但是前四条已经发送到下游的kafka了。
我设置了事务id,隔离级别,client
id,enable.idempotence,max.in.flight.requests.per.connection,retries
但是没有效果。



--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink版本升级问题咨询

2021-01-06 文章 zhang hao
目前现状:公司flink任务都是跑在flin1.7当中,通过公司开发的流计算平台进行提交到flink yarn集群,flink on yarn
基于flink
session进行部署,运行任务有接近500个流式任务,许多都是有状态应用,现在如果想把flink集群升级到1.11或者1.12,如何平滑的进行版本升级,而不影响现有的任务?


Re: Flink SQL 如何保证多个sql 语句按顺序执行

2021-01-06 文章 Jacob
谢谢回复,

听起来是可以的
我先尝试一下这种方案



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 请教关于是否有除了计算压力以外的反压原因。比如‘网络’?

2021-01-06 文章 赵一旦
我比较倾向于是网络原因。但flink的日志目前无法很明显反映和确认。期望有人从flink反压机制角度考虑下,有没有因为网络“抖动”,比如长连接断开等问题导致反压的case。而且这种情况是否会自动恢复呢?从我的几次经验来看我不重启就不恢复。。。

赵一旦  于2021年1月6日周三 下午11:43写道:

> 如题,反压的原因,不考虑计算压力大,并行度不合理等问题。
> 比如是否可能和网络也有关呢?
>
> 考虑如下case,A->B->C这么一个拓扑,我A(source)结点反压100%,数据彻底不再发送,但B和C都不反压。但是B、C都是非常简单(不可能存在性能问题)。那这还有什么解释吗?
>
> 比如,A和B之间网络是否可能出问题呢?
>
> 此外,从机器cpu等监控来看,出现反压后,cpu
> idle提升,即反压到cpu利用率直接降低,且cpu在附近实际无升高的迹象。因此不会是瞬间有压力来导致反压。
> 我当前怀疑和网络有关,有人知道如何确认吗。这种case是否有可能自动恢复呢。
>
> 我最近貌似遇到过好几次类似的case,就是反压到直接不发送数据,整个任务彻底停滞。最终解决方式:1
> 停任务(而且每次停任务都会有1个task长期处于canceling最终导致tm失败) 2 停ok并且重启tm后,重启任务。任务运行恢复正常。
>
> 从如上来看,也更进一步证明了不是压力问题,否则为什么我重启就没问题了。不重启则是“一直”反压停滞。
>
>
>
>
>
>


请教关于是否有除了计算压力以外的反压原因。比如‘网络’?

2021-01-06 文章 赵一旦
如题,反压的原因,不考虑计算压力大,并行度不合理等问题。
比如是否可能和网络也有关呢?
考虑如下case,A->B->C这么一个拓扑,我A(source)结点反压100%,数据彻底不再发送,但B和C都不反压。但是B、C都是非常简单(不可能存在性能问题)。那这还有什么解释吗?

比如,A和B之间网络是否可能出问题呢?

此外,从机器cpu等监控来看,出现反压后,cpu
idle提升,即反压到cpu利用率直接降低,且cpu在附近实际无升高的迹象。因此不会是瞬间有压力来导致反压。
我当前怀疑和网络有关,有人知道如何确认吗。这种case是否有可能自动恢复呢。

我最近貌似遇到过好几次类似的case,就是反压到直接不发送数据,整个任务彻底停滞。最终解决方式:1
停任务(而且每次停任务都会有1个task长期处于canceling最终导致tm失败) 2 停ok并且重启tm后,重启任务。任务运行恢复正常。

从如上来看,也更进一步证明了不是压力问题,否则为什么我重启就没问题了。不重启则是“一直”反压停滞。


Re: Flink SQL 如何保证多个sql 语句按顺序执行

2021-01-06 文章 Sebastian Liu
tableEnv.executeSql
会返回TableResult,可以从中获取JobClient,检查JobStatus,在Future中CallBack
写逻辑执行后续sql。不知道是否满足你的需求?

Jacob <17691150...@163.com> 于2021年1月6日周三 下午2:13写道:

> Dear All,在Flink SQL
>
> job中,如果有多个sql语句,需要按顺序执行,即下一个sql的执行依赖上一个sql的执行结果。由于tableEnv.executeSql(sql)是*异步*提交的,那么如何保证多个sql是*顺序执行*?eg:在一个main函数中,有如下代码:String
> sql1 = "";tableEnv.executeSql(sql1 );String sql2 =
> "";tableEnv.executeSql(sql2 );问题:如何保证sql1先执行完成,再执行sql2
>
>
>
> -
> Thanks!
> Jacob
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/



-- 

*With kind regards

Sebastian Liu 刘洋
Institute of Computing Technology, Chinese Academy of Science
Mobile\WeChat: +86—15201613655
E-mail: liuyang0...@gmail.com 
QQ: 3239559*


CEP 如何按事件时间处理

2021-01-06 文章 bulterman
Hi all,
我写了一个测试demo,设置了水印从数据中提取,但在cep的pattern里within()还是按processing time而不是event 
time来触发?

Re: flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk
Hi~

我现在也有在用这个办法,可我任务特别多的话,还要求及时报警并发送消息到钉钉群到邮件,这种方法就不太好了



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

StreamFileSink????????????

2021-01-06 文章 cs
flink??1.10.1
3
??kafka??hdfs
??
part-0-1
part-1-1
part-1-2
...


Re: flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-06 文章 李继
可以尝试用yarn application -list 去定期查找你的任务来判断任务是否挂掉

bradyMk  于2021年1月6日周三 下午4:35写道:

> Hi,请教大家一个问题:
>
> 目前使用grafana监控flink的作业,想实现一个任务挂掉就报警的功能,初步想法是:监控checkpoint
> size的指标,一旦这个指标为0,就认为任务挂掉,但实际操作后,发现了两个问题:
>
> ① 如果kill掉任务,grafana上的flink所有指标都会一直保持最后接收到的值不变;
> ② 如果cancel掉任务,grafana上的flink所有指标都会突然中断;
>
> 所以,我上面说的想法永远都不会出发告警,因为这个checkpoint size的指标在任务挂掉也不会归为0值;
>
>
> 我又尝试了用一分钟前的job_uptime减去一分钟后的job_uptime,但是这样报警并不优雅,在任务刚启动时会有误报,因为任务刚启动时,一分钟前是没有数据的。
>
> 所以现在很疑惑,请教一下大家如果用grafana监控flink作业的,该选用什么样的指标和用什么规则,可以优雅的报警呢?
>
>
>
> -
> Best Wishes
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Flink 1.10 on yarn提交任务报错

2021-01-06 文章 Jacob
hi,

可以先做如下尝试:

export HADOOP_USER_NAME=your user

export HADOOP_CONF_DIR=your hadoop conf dir

export HADOOP_CLASSPATH=`/opt/app/hadoop/bin/hadoop classpath`



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/


flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk
Hi,请教大家一个问题:

目前使用grafana监控flink的作业,想实现一个任务挂掉就报警的功能,初步想法是:监控checkpoint
size的指标,一旦这个指标为0,就认为任务挂掉,但实际操作后,发现了两个问题:

① 如果kill掉任务,grafana上的flink所有指标都会一直保持最后接收到的值不变;
② 如果cancel掉任务,grafana上的flink所有指标都会突然中断;

所以,我上面说的想法永远都不会出发告警,因为这个checkpoint size的指标在任务挂掉也不会归为0值;

我又尝试了用一分钟前的job_uptime减去一分钟后的job_uptime,但是这样报警并不优雅,在任务刚启动时会有误报,因为任务刚启动时,一分钟前是没有数据的。

所以现在很疑惑,请教一下大家如果用grafana监控flink作业的,该选用什么样的指标和用什么规则,可以优雅的报警呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink sql开了TwoStageOptimizedAggregateRule优化,容易jvm heap outofmemory?

2021-01-06 文章 jindy_liu
如上,同一个作业,数据也是相同的,配置差异就是有两阶段聚合,线上作业运行一断时间后
1、开两阶段聚合, 运行一段时间就会core,并且从checkpoint恢复时,必core,作业重启不了。每次都显示jvm heap不足。
2、关闭两阶段聚合,其它内存配置不变,作业运行没问题。

查看线上的core的时候的dump文件,发现一处疑似泄漏的地方。
请问下local agg操作是不是会用到java heap做聚合操作?聚合的数据量没控制好,容易引发内存问题?


 






--
Sent from: http://apache-flink.147419.n8.nabble.com/

通过k8s 部署的flink 集群

2021-01-06 文章 旧城以西
通过k8s-session部署的flink 集群,三个节点,job提交上去后为什么只占用一个task 
manager的节点。目前这样,导致数据倾斜,每次checkpoint 都会失败






 





 

通过k8s 部署的flink 集群

2021-01-06 文章 旧城以西
通过k8s-session部署的flink 集群,三个节点,job提交上去后为什么只占用一个task 
manager的节点。目前这样,导致数据倾斜,每次checkpoint 都会失败






 

Flink 1.10 on yarn提交任务报错

2021-01-06 文章 黄润星
./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 
./examples/batch/WordCount.jar








java.lang.Exception: unable to establish the security context
at 
org.apache.flink.runtime.security.SecurityUtils.install(SecurityUtils.java:73)
at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:964)
Caused by: 
org.apache.flink.runtime.security.modules.SecurityModule$SecurityInstallException:
 Unable to set the Hadoop login user
at 
org.apache.flink.runtime.security.modules.HadoopModule.install(HadoopModule.java:146)
at 
org.apache.flink.runtime.security.SecurityUtils.install(SecurityUtils.java:67)
... 1 more
Caused by: java.lang.NoSuchMethodError: 
org.apache.flink.runtime.util.HadoopUtils.isCredentialsConfigured(Lorg/apache/hadoop/security/UserGroupInformation;Z)Z
at 
org.apache.flink.runtime.security.modules.HadoopModule.install(HadoopModule.java:140)
... 2 more


| |
huangrunxingxing
|
|
huangrunxingx...@163.com
|
签名由网易邮箱大师定制

通过k8s 部署的flink 集群

2021-01-06 文章 旧城以西
通过k8s-session部署的flink 集群,三个节点,job提交上去后为什么只占用一个task 
manager的节点。目前这样,导致数据倾斜,每次checkpoint 都会失败



Re: Flink cdc connector:数据量较大时,snapshot阶段报错

2021-01-06 文章 jindy_liu
snapshot阶段如果后端处理的慢,就容易反压,反压会造成debezium执行select * from xxx的时候会花较长时间。

这个报错一般是mysql本身的原因。出现通信错误的原因挺复杂的,需要单独看。我的原因比较坑,定位也花了些时间!!!公司DBA会进行sql语句执行时长监控,并kill掉相应的sql,从而造成上述通信异常问题,

还有一些原因比如空闲时间太长了,mysql server也会断开连接。常见的这些是改mysql的配置,社区的jark
wu有一些分享配置,mysql-cdc-connector的github上也有分享。比如wait_timeout之类的。




--
Sent from: http://apache-flink.147419.n8.nabble.com/