date:20210106

Re:Re: Re: Re: Re: Re: 修改flink的任务调度

2021-01-06 文章 penguin.

能否 将集群部署在yarn上，然后通过实现yarn的接口来做呢？好像yarn是提供了一个可插拔的接口进行资源调度之类的。











在 2021-01-07 13:05:59，"赵一旦"  写道：
>没有的。
>
>penguin.  于2021年1月7日周四 下午1:04写道：
>
>> 赵一旦：
>> 所以目前是否有办法来实现在提交任务后，将这个任务的subtask调度到指定机器的某个slot来执行呢。
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 在 2021-01-07 12:57:35，"赵一旦"  写道：
>> >不一样的哈。不是一个层次的东西。
>> >调度平台指的是在指定时间自动帮你提交某个任务，或者每天定时提交某个任务等。
>> >
>> >后者是flink内部的机制，指提交任务后，这个任务的每个subtask应该使用哪台机器哪个slot去执行。
>> >
>> >penguin.  于2021年1月7日周四 下午12:50写道：
>> >
>> >> 赵一旦：
>> >> 你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗？
>> >> 我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
>> >> 是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >> 在 2021-01-07 12:24:42，"赵一旦"  写道：
>> >> >你说的是任务调度有2层含义。一种任务调度平台（这个很常见）。还是flink自身的task的schedule，这个是很复杂。
>> >> >
>> >> >penguin.  于2021年1月7日周四 上午10:32写道：
>> >> >
>> >> >>
>> >> >>
>> >> >>
>> >> >> 我在知网的一篇论文中看到有作者做的flink任务调度，但是发了邮件很久也没人回复。
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >> 在 2021-01-07 10:21:27，"赵一旦"  写道：
>> >> >> >是的，之前有人给过我回复，说当前flink的调度信息不足，导致无法做到很理想的调度。
>> >> >> >
>> >> >> >penguin.  于2021年1月7日周四 上午10:11写道：
>> >> >> >
>> >> >> >>
>> >> >> >>
>> >> >>
>> >>
>> 我在jira上看到好像有人在做，但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码，不过源码注释好像很少，很困难。
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >> 在 2021-01-06 13:06:20，"赵一旦"  写道：
>> >> >> >> >我不是很清楚，不过难度应该很大，不然社区早改了。当前任务经常导致机器资源不均衡，这个问题很常见。
>> >> >> >> >
>> >> >> >> >penguin.  于2021年1月6日周三 上午11:15写道：
>> >> >> >> >
>> >> >> >> >> Hi，请问大家知道怎么更改flink默认的任务调度方式吗？
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >> >>
>> >> >>
>> >>
>>

Re: Re: Re: Re: Re: 修改flink的任务调度

2021-01-06 文章赵一旦

没有的。

penguin.  于2021年1月7日周四 下午1:04写道：

> 赵一旦：
> 所以目前是否有办法来实现在提交任务后，将这个任务的subtask调度到指定机器的某个slot来执行呢。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2021-01-07 12:57:35，"赵一旦"  写道：
> >不一样的哈。不是一个层次的东西。
> >调度平台指的是在指定时间自动帮你提交某个任务，或者每天定时提交某个任务等。
> >
> >后者是flink内部的机制，指提交任务后，这个任务的每个subtask应该使用哪台机器哪个slot去执行。
> >
> >penguin.  于2021年1月7日周四 下午12:50写道：
> >
> >> 赵一旦：
> >> 你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗？
> >> 我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
> >> 是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >> 在 2021-01-07 12:24:42，"赵一旦"  写道：
> >> >你说的是任务调度有2层含义。一种任务调度平台（这个很常见）。还是flink自身的task的schedule，这个是很复杂。
> >> >
> >> >penguin.  于2021年1月7日周四 上午10:32写道：
> >> >
> >> >>
> >> >>
> >> >>
> >> >> 我在知网的一篇论文中看到有作者做的flink任务调度，但是发了邮件很久也没人回复。
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >> 在 2021-01-07 10:21:27，"赵一旦"  写道：
> >> >> >是的，之前有人给过我回复，说当前flink的调度信息不足，导致无法做到很理想的调度。
> >> >> >
> >> >> >penguin.  于2021年1月7日周四 上午10:11写道：
> >> >> >
> >> >> >>
> >> >> >>
> >> >>
> >>
> 我在jira上看到好像有人在做，但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码，不过源码注释好像很少，很困难。
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >> 在 2021-01-06 13:06:20，"赵一旦"  写道：
> >> >> >> >我不是很清楚，不过难度应该很大，不然社区早改了。当前任务经常导致机器资源不均衡，这个问题很常见。
> >> >> >> >
> >> >> >> >penguin.  于2021年1月6日周三 上午11:15写道：
> >> >> >> >
> >> >> >> >> Hi，请问大家知道怎么更改flink默认的任务调度方式吗？
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >> >>
> >> >>
> >>
>

Re:Re: Re: Re: Re: 修改flink的任务调度

2021-01-06 文章 penguin.

赵一旦：
所以目前是否有办法来实现在提交任务后，将这个任务的subtask调度到指定机器的某个slot来执行呢。














在 2021-01-07 12:57:35，"赵一旦"  写道：
>不一样的哈。不是一个层次的东西。
>调度平台指的是在指定时间自动帮你提交某个任务，或者每天定时提交某个任务等。
>
>后者是flink内部的机制，指提交任务后，这个任务的每个subtask应该使用哪台机器哪个slot去执行。
>
>penguin.  于2021年1月7日周四 下午12:50写道：
>
>> 赵一旦：
>> 你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗？
>> 我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
>> 是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 在 2021-01-07 12:24:42，"赵一旦"  写道：
>> >你说的是任务调度有2层含义。一种任务调度平台（这个很常见）。还是flink自身的task的schedule，这个是很复杂。
>> >
>> >penguin.  于2021年1月7日周四 上午10:32写道：
>> >
>> >>
>> >>
>> >>
>> >> 我在知网的一篇论文中看到有作者做的flink任务调度，但是发了邮件很久也没人回复。
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >> 在 2021-01-07 10:21:27，"赵一旦"  写道：
>> >> >是的，之前有人给过我回复，说当前flink的调度信息不足，导致无法做到很理想的调度。
>> >> >
>> >> >penguin.  于2021年1月7日周四 上午10:11写道：
>> >> >
>> >> >>
>> >> >>
>> >>
>> 我在jira上看到好像有人在做，但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码，不过源码注释好像很少，很困难。
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >> 在 2021-01-06 13:06:20，"赵一旦"  写道：
>> >> >> >我不是很清楚，不过难度应该很大，不然社区早改了。当前任务经常导致机器资源不均衡，这个问题很常见。
>> >> >> >
>> >> >> >penguin.  于2021年1月6日周三 上午11:15写道：
>> >> >> >
>> >> >> >> Hi，请问大家知道怎么更改flink默认的任务调度方式吗？
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >> >>
>> >>
>>

Re: Re: Re: Re: 修改flink的任务调度

2021-01-06 文章赵一旦

不一样的哈。不是一个层次的东西。
调度平台指的是在指定时间自动帮你提交某个任务，或者每天定时提交某个任务等。

后者是flink内部的机制，指提交任务后，这个任务的每个subtask应该使用哪台机器哪个slot去执行。

penguin.  于2021年1月7日周四 下午12:50写道：

> 赵一旦：
> 你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗？
> 我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
> 是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2021-01-07 12:24:42，"赵一旦"  写道：
> >你说的是任务调度有2层含义。一种任务调度平台（这个很常见）。还是flink自身的task的schedule，这个是很复杂。
> >
> >penguin.  于2021年1月7日周四 上午10:32写道：
> >
> >>
> >>
> >>
> >> 我在知网的一篇论文中看到有作者做的flink任务调度，但是发了邮件很久也没人回复。
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >> 在 2021-01-07 10:21:27，"赵一旦"  写道：
> >> >是的，之前有人给过我回复，说当前flink的调度信息不足，导致无法做到很理想的调度。
> >> >
> >> >penguin.  于2021年1月7日周四 上午10:11写道：
> >> >
> >> >>
> >> >>
> >>
> 我在jira上看到好像有人在做，但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码，不过源码注释好像很少，很困难。
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >> >> 在 2021-01-06 13:06:20，"赵一旦"  写道：
> >> >> >我不是很清楚，不过难度应该很大，不然社区早改了。当前任务经常导致机器资源不均衡，这个问题很常见。
> >> >> >
> >> >> >penguin.  于2021年1月6日周三 上午11:15写道：
> >> >> >
> >> >> >> Hi，请问大家知道怎么更改flink默认的任务调度方式吗？
> >> >>
> >> >>
> >> >>
> >> >>
> >> >>
> >>
>

Re:Re: Re: Re: 修改flink的任务调度

2021-01-06 文章 penguin.

赵一旦：
你说的任务调度平台是指通过这种平台来完全控制flink中的task到具体某个节点的调度吗？
我想的是flink自己内部的task到节点的调度。比如说通过修改flink现在的调度部分的代码来实现。
是不是这两种都可以用来实现 根据我们自己的需求来决定将task具体调度哪个节点中。














在 2021-01-07 12:24:42，"赵一旦"  写道：
>你说的是任务调度有2层含义。一种任务调度平台（这个很常见）。还是flink自身的task的schedule，这个是很复杂。
>
>penguin.  于2021年1月7日周四 上午10:32写道：
>
>>
>>
>>
>> 我在知网的一篇论文中看到有作者做的flink任务调度，但是发了邮件很久也没人回复。
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 在 2021-01-07 10:21:27，"赵一旦"  写道：
>> >是的，之前有人给过我回复，说当前flink的调度信息不足，导致无法做到很理想的调度。
>> >
>> >penguin.  于2021年1月7日周四 上午10:11写道：
>> >
>> >>
>> >>
>> 我在jira上看到好像有人在做，但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码，不过源码注释好像很少，很困难。
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >>
>> >> 在 2021-01-06 13:06:20，"赵一旦"  写道：
>> >> >我不是很清楚，不过难度应该很大，不然社区早改了。当前任务经常导致机器资源不均衡，这个问题很常见。
>> >> >
>> >> >penguin.  于2021年1月6日周三 上午11:15写道：
>> >> >
>> >> >> Hi，请问大家知道怎么更改flink默认的任务调度方式吗？
>> >>
>> >>
>> >>
>> >>
>> >>
>>

Re: Re: Re: 修改flink的任务调度

2021-01-06 文章赵一旦

你说的是任务调度有2层含义。一种任务调度平台（这个很常见）。还是flink自身的task的schedule，这个是很复杂。

penguin.  于2021年1月7日周四 上午10:32写道：

>
>
>
> 我在知网的一篇论文中看到有作者做的flink任务调度，但是发了邮件很久也没人回复。
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2021-01-07 10:21:27，"赵一旦"  写道：
> >是的，之前有人给过我回复，说当前flink的调度信息不足，导致无法做到很理想的调度。
> >
> >penguin.  于2021年1月7日周四 上午10:11写道：
> >
> >>
> >>
> 我在jira上看到好像有人在做，但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码，不过源码注释好像很少，很困难。
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >>
> >> 在 2021-01-06 13:06:20，"赵一旦"  写道：
> >> >我不是很清楚，不过难度应该很大，不然社区早改了。当前任务经常导致机器资源不均衡，这个问题很常见。
> >> >
> >> >penguin.  于2021年1月6日周三 上午11:15写道：
> >> >
> >> >> Hi，请问大家知道怎么更改flink默认的任务调度方式吗？
> >>
> >>
> >>
> >>
> >>
>

Flink 1.11.2版本实时任务运行报错 is running beyond physical memory limits. Current usage: 25.0 GB of 25 GB physical memory used; 28.3 GB of 52.5 GB virtual memory used. Killing container

2021-01-06 文章 Yang Peng

Hi，

 
大家好，咨询一个问题，我们有个实时任务运行在Flink1.11.2版本，使用rocksdbstatebackend，最近报警出现了物理内存超限被kill的异常信息，我们查看了监控taskmanager
heap使用量没有超限，direct内存使用量也维持在一个平稳的范围内没有超限，也没有报oom，这种情况是非堆内存异常是吗？完整报错信息如下：

Dump of the process-tree for container_e06_1603181034156_0137_01_02 :
|- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS)
SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES)
FULL_CMD_LINE
|- 180421 180362 180362 180362 (java) 258262921 59979106 30306209792
6553277 /usr/jdk64/jdk1.8.0_152/bin/java -XX:+UseSerialGC
-Xmx11542724608 -Xms11542724608 -XX:MaxDirectMemorySize=1207959552
-XX:MaxMetaspaceSize=268435456
-Dlog.file=/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.log
-Dlog4j.configuration=file:./log4j.properties
-Dlog4j.configurationFile=file:./log4j.properties
org.apache.flink.yarn.YarnTaskExecutorRunner -D
taskmanager.memory.framework.off-heap.size=134217728b -D
taskmanager.memory.network.max=1073741824b -D
taskmanager.memory.network.min=1073741824b -D
taskmanager.memory.framework.heap.size=134217728b -D
taskmanager.memory.managed.size=12750684160b -D
taskmanager.cpu.cores=1.0 -D
taskmanager.memory.task.heap.size=11408506880b -D
taskmanager.memory.task.off-heap.size=0b --configDir .
-Djobmanager.rpc.address=flink-cm8.jd.163.org -Dweb.port=0
-Dweb.tmpdir=/tmp/flink-web-9197a884-03b9-4865-a0a0-0b6a1c295f2c
-Djobmanager.rpc.port=33656 -Drest.address=flink-cm8.jd.163.org
-Dsecurity.kerberos.login.keytab=/mnt/ssd/3/yarn/local/usercache/portal/appcache/application_1603181034156_0137/container_e06_1603181034156_0137_01_01/krb5.keytab
|- 180362 180360 180362 180362 (bash) 0 2 116011008 353 /bin/bash -c
/usr/jdk64/jdk1.8.0_152/bin/java -XX:+UseSerialGC -Xmx11542724608
-Xms11542724608 -XX:MaxDirectMemorySize=1207959552
-XX:MaxMetaspaceSize=268435456
-Dlog.file=/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.log
-Dlog4j.configuration=file:./log4j.properties
-Dlog4j.configurationFile=file:./log4j.properties
org.apache.flink.yarn.YarnTaskExecutorRunner -D
taskmanager.memory.framework.off-heap.size=134217728b -D
taskmanager.memory.network.max=1073741824b -D
taskmanager.memory.network.min=1073741824b -D
taskmanager.memory.framework.heap.size=134217728b -D
taskmanager.memory.managed.size=12750684160b -D
taskmanager.cpu.cores=1.0 -D
taskmanager.memory.task.heap.size=11408506880b -D
taskmanager.memory.task.off-heap.size=0b --configDir .
-Djobmanager.rpc.address='flink-cm8.jd.163.org' -Dweb.port='0'
-Dweb.tmpdir='/tmp/flink-web-9197a884-03b9-4865-a0a0-0b6a1c295f2c'
-Djobmanager.rpc.port='33656' -Drest.address='flink-cm8.jd.163.org'
-Dsecurity.kerberos.login.keytab='/mnt/ssd/3/yarn/local/usercache/portal/appcache/application_1603181034156_0137/container_e06_1603181034156_0137_01_01/krb5.keytab'
1> 
/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.out
2> 
/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.err

Container killed on request. Exit code is 143
Container exited with a non-zero exit code 143

2021-01-07 11:51:00,781 INFO
org.apache.flink.runtime.executiongraph.ExecutionGraph   [] -
Source: 银河SDK原始日志 (18/90) (51ac2f29df472d001ce9b4307636ac1c) switched
from RUNNING to FAILED on
org.apache.flink.runtime.jobmaster.slotpool.SingleLogicalSlot@1aad00fa.
java.lang.Exception: Container
[pid=180362,containerID=container_e06_1603181034156_0137_01_02] is
running beyond physical memory limits. Current usage: 25.0 GB of 25 GB
physical memory used; 28.3 GB of 52.5 GB virtual memory used. Killing
container.
Dump of the process-tree for container_e06_1603181034156_0137_01_02 :
|- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS)
SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES)
FULL_CMD_LINE
|- 180421 180362 180362 180362 (java) 258262921 59979106 30306209792
6553277 /usr/jdk64/jdk1.8.0_152/bin/java -XX:+UseSerialGC
-Xmx11542724608 -Xms11542724608 -XX:MaxDirectMemorySize=1207959552
-XX:MaxMetaspaceSize=268435456
-Dlog.file=/mnt/ssd/8/yarn/log/application_1603181034156_0137/container_e06_1603181034156_0137_01_02/taskmanager.log
-Dlog4j.configuration=file:./log4j.properties
-Dlog4j.configurationFile=file:./log4j.properties
org.apache.flink.yarn.YarnTaskExecutorRunner -D
taskmanager.memory.framework.off-heap.size=134217728b -D
taskmanager.memory.network.max=1073741824b -D
taskmanager.memory.network.min=1073741824b -D
taskmanager.memory.framework.heap.size=134217728b -D
taskmanager.memory.managed.size=12750684160b -D
taskmanager.cpu.cores=1.0 -D
taskmanager.memory.task.heap.size=11408506880b -D
taskmanager.memory.task.off-heap.size=0b --configDir .
-Djobmanager.rpc.address=flink-cm8.jd.163.org -Dweb.port=0
-Dweb.tmpdir=/tmp/flink-web-9197a884-03b9-4865-a0a0-0b6a1c295f2c
-Djobmanager.rpc.port=33656 -Drest.address=flink-cm8.jd.163.org

Re:flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-06 文章 jiangjiguang719

我们当前的实现是，每分钟调用yarn的rest api 获取作业状态，和实时计算平台上的作业状态对比，如果挂掉就电话报警，同时平台上作业状态修改为运行异常




在 2021-01-06 16:35:05，"bradyMk"  写道：
>Hi，请教大家一个问题：
>
>目前使用grafana监控flink的作业，想实现一个任务挂掉就报警的功能，初步想法是：监控checkpoint
>size的指标，一旦这个指标为0，就认为任务挂掉，但实际操作后，发现了两个问题：
>
>① 如果kill掉任务，grafana上的flink所有指标都会一直保持最后接收到的值不变；
>② 如果cancel掉任务，grafana上的flink所有指标都会突然中断；
>
>所以，我上面说的想法永远都不会出发告警，因为这个checkpoint size的指标在任务挂掉也不会归为0值；
>
>我又尝试了用一分钟前的job_uptime减去一分钟后的job_uptime，但是这样报警并不优雅，在任务刚启动时会有误报，因为任务刚启动时，一分钟前是没有数据的。
>
>所以现在很疑惑，请教一下大家如果用grafana监控flink作业的，该选用什么样的指标和用什么规则，可以优雅的报警呢？
>
>
>
>-
>Best Wishes
>--
>Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink CVE补丁会打在1.10版本吗

2021-01-06 文章 zilong xiao

Hi Luna,
可以找到对应的commit，将其修改cherry pick到自己的工程重新打包

祝好~

Luna Wong  于2021年1月7日周四 上午10:44写道：

> Flink 那个两个CVE的Patch 会打在1.10.4这个版本吗。目前修复版本是 1.11.3 1.12.0 ，很多生成还都在1.10
> 不好直接升级的。
>

Re: flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-06 文章 Yun Tang

Hi

可以使用 numRestarts [1] 
指标进行报警，不过需要维护状态，也就是该值增大时报警。对于旧版本Flink，可以使用以及废弃的fullRestarts 指标。


[1] 
https://ci.apache.org/projects/flink/flink-docs-stable/ops/metrics.html#availability

祝好
唐云

From: bradyMk 
Sent: Wednesday, January 6, 2021 18:57
To: user-zh@flink.apache.org 
Subject: Re: flink作业通过grafana监控，若想发出报警该如何选择指标的问题

Hi~

我现在也有在用这个办法，可我任务特别多的话，还要求及时报警并发送消息到钉钉群到邮件，这种方法就不太好了



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Flink CVE补丁会打在1.10版本吗

2021-01-06 文章 Luna Wong

Flink 那个两个CVE的Patch 会打在1.10.4这个版本吗。目前修复版本是 1.11.3 1.12.0 ，很多生成还都在1.10 不好直接升级的。

Re:Re: Re: 修改flink的任务调度

2021-01-06 文章 penguin.




我在知网的一篇论文中看到有作者做的flink任务调度，但是发了邮件很久也没人回复。














在 2021-01-07 10:21:27，"赵一旦"  写道：
>是的，之前有人给过我回复，说当前flink的调度信息不足，导致无法做到很理想的调度。
>
>penguin.  于2021年1月7日周四 上午10:11写道：
>
>>
>> 我在jira上看到好像有人在做，但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码，不过源码注释好像很少，很困难。
>>
>>
>>
>>
>>
>>
>>
>>
>>
>> 在 2021-01-06 13:06:20，"赵一旦"  写道：
>> >我不是很清楚，不过难度应该很大，不然社区早改了。当前任务经常导致机器资源不均衡，这个问题很常见。
>> >
>> >penguin.  于2021年1月6日周三 上午11:15写道：
>> >
>> >> Hi，请问大家知道怎么更改flink默认的任务调度方式吗？
>>
>>
>>
>>
>>

Re: Re: 修改flink的任务调度

2021-01-06 文章赵一旦

是的，之前有人给过我回复，说当前flink的调度信息不足，导致无法做到很理想的调度。

penguin.  于2021年1月7日周四 上午10:11写道：

>
> 我在jira上看到好像有人在做，但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码，不过源码注释好像很少，很困难。
>
>
>
>
>
>
>
>
>
> 在 2021-01-06 13:06:20，"赵一旦"  写道：
> >我不是很清楚，不过难度应该很大，不然社区早改了。当前任务经常导致机器资源不均衡，这个问题很常见。
> >
> >penguin.  于2021年1月6日周三 上午11:15写道：
> >
> >> Hi，请问大家知道怎么更改flink默认的任务调度方式吗？
>
>
>
>
>

Re:Re: 修改flink的任务调度

2021-01-06 文章 penguin.

我在jira上看到好像有人在做，但是好像无法获取到更多的信息。也不知道他们是怎么做的。主要应该是找到进行任务调度那块的代码，不过源码注释好像很少，很困难。























在 2021-01-06 13:06:20，"赵一旦"  写道：
>我不是很清楚，不过难度应该很大，不然社区早改了。当前任务经常导致机器资源不均衡，这个问题很常见。
>
>penguin.  于2021年1月6日周三 上午11:15写道：
>
>> Hi，请问大家知道怎么更改flink默认的任务调度方式吗？

flink-kafka-sink

2021-01-06 文章 cxx

 我从kafka消费一条数据，然后将消息进行切分，再发送到下游的kafka中，但是这样不能保证在一个事务里面。
例如：我将一条数据切分成10条，然后再第五条的时候抛出一个异常，但是前四条已经发送到下游的kafka了。
我设置了事务id，隔离级别，client
id，enable.idempotence,max.in.flight.requests.per.connection,retries
但是没有效果。



--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink版本升级问题咨询

2021-01-06 文章 zhang hao

目前现状：公司flink任务都是跑在flin1.7当中，通过公司开发的流计算平台进行提交到flink yarn集群，flink on yarn
基于flink
session进行部署，运行任务有接近500个流式任务，许多都是有状态应用，现在如果想把flink集群升级到1.11或者1.12，如何平滑的进行版本升级，而不影响现有的任务？

Re: Flink SQL 如何保证多个sql 语句按顺序执行

2021-01-06 文章 Jacob

谢谢回复，

听起来是可以的
我先尝试一下这种方案



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 请教关于是否有除了计算压力以外的反压原因。比如‘网络’？

2021-01-06 文章赵一旦

我比较倾向于是网络原因。但flink的日志目前无法很明显反映和确认。期望有人从flink反压机制角度考虑下，有没有因为网络“抖动”，比如长连接断开等问题导致反压的case。而且这种情况是否会自动恢复呢？从我的几次经验来看我不重启就不恢复。。。

赵一旦  于2021年1月6日周三 下午11:43写道：

> 如题，反压的原因，不考虑计算压力大，并行度不合理等问题。
> 比如是否可能和网络也有关呢？
>
> 考虑如下case，A->B->C这么一个拓扑，我A（source）结点反压100%，数据彻底不再发送，但B和C都不反压。但是B、C都是非常简单（不可能存在性能问题）。那这还有什么解释吗？
>
> 比如，A和B之间网络是否可能出问题呢？
>
> 此外，从机器cpu等监控来看，出现反压后，cpu
> idle提升，即反压到cpu利用率直接降低，且cpu在附近实际无升高的迹象。因此不会是瞬间有压力来导致反压。
> 我当前怀疑和网络有关，有人知道如何确认吗。这种case是否有可能自动恢复呢。
>
> 我最近貌似遇到过好几次类似的case，就是反压到直接不发送数据，整个任务彻底停滞。最终解决方式：1
> 停任务（而且每次停任务都会有1个task长期处于canceling最终导致tm失败） 2 停ok并且重启tm后，重启任务。任务运行恢复正常。
>
> 从如上来看，也更进一步证明了不是压力问题，否则为什么我重启就没问题了。不重启则是“一直”反压停滞。
>
>
>
>
>
>

请教关于是否有除了计算压力以外的反压原因。比如‘网络’？

2021-01-06 文章赵一旦

如题，反压的原因，不考虑计算压力大，并行度不合理等问题。
比如是否可能和网络也有关呢？
考虑如下case，A->B->C这么一个拓扑，我A（source）结点反压100%，数据彻底不再发送，但B和C都不反压。但是B、C都是非常简单（不可能存在性能问题）。那这还有什么解释吗？

比如，A和B之间网络是否可能出问题呢？

此外，从机器cpu等监控来看，出现反压后，cpu
idle提升，即反压到cpu利用率直接降低，且cpu在附近实际无升高的迹象。因此不会是瞬间有压力来导致反压。
我当前怀疑和网络有关，有人知道如何确认吗。这种case是否有可能自动恢复呢。

我最近貌似遇到过好几次类似的case，就是反压到直接不发送数据，整个任务彻底停滞。最终解决方式：1
停任务（而且每次停任务都会有1个task长期处于canceling最终导致tm失败） 2 停ok并且重启tm后，重启任务。任务运行恢复正常。

从如上来看，也更进一步证明了不是压力问题，否则为什么我重启就没问题了。不重启则是“一直”反压停滞。

Re: Flink SQL 如何保证多个sql 语句按顺序执行

2021-01-06 文章 Sebastian Liu

tableEnv.executeSql
会返回TableResult，可以从中获取JobClient，检查JobStatus，在Future中CallBack
写逻辑执行后续sql。不知道是否满足你的需求？

Jacob <17691150...@163.com> 于2021年1月6日周三 下午2:13写道：

> Dear All,在Flink SQL
>
> job中,如果有多个sql语句，需要按顺序执行，即下一个sql的执行依赖上一个sql的执行结果。由于tableEnv.executeSql(sql)是*异步*提交的，那么如何保证多个sql是*顺序执行*？eg:在一个main函数中，有如下代码：String
> sql1 = "";tableEnv.executeSql(sql1 );String sql2 =
> "";tableEnv.executeSql(sql2 );问题：如何保证sql1先执行完成，再执行sql2
>
>
>
> -
> Thanks!
> Jacob
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/



-- 

*With kind regards

Sebastian Liu 刘洋
Institute of Computing Technology, Chinese Academy of Science
Mobile\WeChat: +86—15201613655
E-mail: liuyang0...@gmail.com 
QQ: 3239559*

CEP 如何按事件时间处理

2021-01-06 文章 bulterman

Hi all,
我写了一个测试demo，设置了水印从数据中提取，但在cep的pattern里within()还是按processing time而不是event 
time来触发？

Re: flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk

Hi~

我现在也有在用这个办法，可我任务特别多的话，还要求及时报警并发送消息到钉钉群到邮件，这种方法就不太好了



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

StreamFileSink????????????

2021-01-06 文章 cs

flink??1.10.1
3
??kafka??hdfs
??
part-0-1
part-1-1
part-1-2
...

Re: flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-06 文章李继

可以尝试用yarn application -list 去定期查找你的任务来判断任务是否挂掉

bradyMk  于2021年1月6日周三 下午4:35写道：

> Hi，请教大家一个问题：
>
> 目前使用grafana监控flink的作业，想实现一个任务挂掉就报警的功能，初步想法是：监控checkpoint
> size的指标，一旦这个指标为0，就认为任务挂掉，但实际操作后，发现了两个问题：
>
> ① 如果kill掉任务，grafana上的flink所有指标都会一直保持最后接收到的值不变；
> ② 如果cancel掉任务，grafana上的flink所有指标都会突然中断；
>
> 所以，我上面说的想法永远都不会出发告警，因为这个checkpoint size的指标在任务挂掉也不会归为0值；
>
>
> 我又尝试了用一分钟前的job_uptime减去一分钟后的job_uptime，但是这样报警并不优雅，在任务刚启动时会有误报，因为任务刚启动时，一分钟前是没有数据的。
>
> 所以现在很疑惑，请教一下大家如果用grafana监控flink作业的，该选用什么样的指标和用什么规则，可以优雅的报警呢？
>
>
>
> -
> Best Wishes
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink 1.10 on yarn提交任务报错

2021-01-06 文章 Jacob

hi，

可以先做如下尝试：

export HADOOP_USER_NAME=your user

export HADOOP_CONF_DIR=your hadoop conf dir

export HADOOP_CLASSPATH=`/opt/app/hadoop/bin/hadoop classpath`



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk

Hi，请教大家一个问题：

目前使用grafana监控flink的作业，想实现一个任务挂掉就报警的功能，初步想法是：监控checkpoint
size的指标，一旦这个指标为0，就认为任务挂掉，但实际操作后，发现了两个问题：

① 如果kill掉任务，grafana上的flink所有指标都会一直保持最后接收到的值不变；
② 如果cancel掉任务，grafana上的flink所有指标都会突然中断；

所以，我上面说的想法永远都不会出发告警，因为这个checkpoint size的指标在任务挂掉也不会归为0值；

我又尝试了用一分钟前的job_uptime减去一分钟后的job_uptime，但是这样报警并不优雅，在任务刚启动时会有误报，因为任务刚启动时，一分钟前是没有数据的。

所以现在很疑惑，请教一下大家如果用grafana监控flink作业的，该选用什么样的指标和用什么规则，可以优雅的报警呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink sql开了TwoStageOptimizedAggregateRule优化，容易jvm heap outofmemory？

2021-01-06 文章 jindy_liu

如上，同一个作业，数据也是相同的，配置差异就是有两阶段聚合，线上作业运行一断时间后
1、开两阶段聚合， 运行一段时间就会core，并且从checkpoint恢复时，必core，作业重启不了。每次都显示jvm heap不足。
2、关闭两阶段聚合，其它内存配置不变，作业运行没问题。

查看线上的core的时候的dump文件，发现一处疑似泄漏的地方。
请问下local agg操作是不是会用到java heap做聚合操作？聚合的数据量没控制好，容易引发内存问题？


 






--
Sent from: http://apache-flink.147419.n8.nabble.com/

通过k8s 部署的flink 集群

2021-01-06 文章旧城以西

通过k8s-session部署的flink 集群，三个节点，job提交上去后为什么只占用一个task 
manager的节点。目前这样，导致数据倾斜，每次checkpoint 都会失败

通过k8s 部署的flink 集群

2021-01-06 文章旧城以西

通过k8s-session部署的flink 集群，三个节点，job提交上去后为什么只占用一个task 
manager的节点。目前这样，导致数据倾斜，每次checkpoint 都会失败

Flink 1.10 on yarn提交任务报错

2021-01-06 文章黄润星

./bin/flink run -m yarn-cluster -yn 2 -yjm 1024 -ytm 1024 
./examples/batch/WordCount.jar








java.lang.Exception: unable to establish the security context
at 
org.apache.flink.runtime.security.SecurityUtils.install(SecurityUtils.java:73)
at org.apache.flink.client.cli.CliFrontend.main(CliFrontend.java:964)
Caused by: 
org.apache.flink.runtime.security.modules.SecurityModule$SecurityInstallException:
 Unable to set the Hadoop login user
at 
org.apache.flink.runtime.security.modules.HadoopModule.install(HadoopModule.java:146)
at 
org.apache.flink.runtime.security.SecurityUtils.install(SecurityUtils.java:67)
... 1 more
Caused by: java.lang.NoSuchMethodError: 
org.apache.flink.runtime.util.HadoopUtils.isCredentialsConfigured(Lorg/apache/hadoop/security/UserGroupInformation;Z)Z
at 
org.apache.flink.runtime.security.modules.HadoopModule.install(HadoopModule.java:140)
... 2 more


| |
huangrunxingxing
|
|
huangrunxingx...@163.com
|
签名由网易邮箱大师定制

通过k8s 部署的flink 集群

2021-01-06 文章旧城以西

通过k8s-session部署的flink 集群，三个节点，job提交上去后为什么只占用一个task 
manager的节点。目前这样，导致数据倾斜，每次checkpoint 都会失败

Re: Flink cdc connector：数据量较大时，snapshot阶段报错

2021-01-06 文章 jindy_liu

snapshot阶段如果后端处理的慢，就容易反压，反压会造成debezium执行select * from xxx的时候会花较长时间。

这个报错一般是mysql本身的原因。出现通信错误的原因挺复杂的，需要单独看。我的原因比较坑，定位也花了些时间！！！公司DBA会进行sql语句执行时长监控，并kill掉相应的sql，从而造成上述通信异常问题，

还有一些原因比如空闲时间太长了，mysql server也会断开连接。常见的这些是改mysql的配置，社区的jark
wu有一些分享配置，mysql-cdc-connector的github上也有分享。比如wait_timeout之类的。




--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re:Re: Re: Re: Re: Re: 修改flink的任务调度

Re: Re: Re: Re: Re: 修改flink的任务调度

Re:Re: Re: Re: Re: 修改flink的任务调度

Re: Re: Re: Re: 修改flink的任务调度

Re:Re: Re: Re: 修改flink的任务调度

Re: Re: Re: 修改flink的任务调度

Flink 1.11.2版本实时任务运行报错 is running beyond physical memory limits. Current usage: 25.0 GB of 25 GB physical memory used; 28.3 GB of 52.5 GB virtual memory used. Killing container

Re:flink作业通过grafana监控，若想发出报警该如何选择指标的问题

Re: Flink CVE补丁会打在1.10版本吗

Re: flink作业通过grafana监控，若想发出报警该如何选择指标的问题

Flink CVE补丁会打在1.10版本吗

Re:Re: Re: 修改flink的任务调度

Re: Re: 修改flink的任务调度

Re:Re: 修改flink的任务调度

flink-kafka-sink

flink版本升级问题咨询

Re: Flink SQL 如何保证多个sql 语句按顺序执行

Re: 请教关于是否有除了计算压力以外的反压原因。比如‘网络’？

请教关于是否有除了计算压力以外的反压原因。比如‘网络’？

Re: Flink SQL 如何保证多个sql 语句按顺序执行

CEP 如何按事件时间处理

Re: flink作业通过grafana监控，若想发出报警该如何选择指标的问题

StreamFileSink????????????

Re: flink作业通过grafana监控，若想发出报警该如何选择指标的问题

Re: Flink 1.10 on yarn提交任务报错

flink作业通过grafana监控，若想发出报警该如何选择指标的问题

flink sql开了TwoStageOptimizedAggregateRule优化，容易jvm heap outofmemory？

通过k8s 部署的flink 集群

通过k8s 部署的flink 集群

Flink 1.10 on yarn提交任务报错

通过k8s 部署的flink 集群

Re: Flink cdc connector：数据量较大时，snapshot阶段报错

32 matches

Site Navigation

Mail list logo

Footer information