Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk
好的,我研究一下,谢谢指导~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk
Hi~Yun Tang大佬~

不是很理解为什么监控这个指标需要维护状态?该维护什么状态?怎么去维护呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk
Hi~
请教一下:
①您说的这个实时计算平台是你们自研的么?
②每分钟调用yarn的rest api 获取作业状态,您是怎么实现的呢?是定时脚本么?我没调用过yarn的rest api ,还不懂该如何调用。。。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk
Hi~
请教一下:
①您说的这个实时计算平台是你们自研的么?
②每分钟调用yarn的rest api 获取作业状态,您是怎么实现的呢?是定时脚本么?我没调用过yarn的rest api ,还不懂改如何调用。。。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk
Hi~

我现在也有在用这个办法,可我任务特别多的话,还要求及时报警并发送消息到钉钉群到邮件,这种方法就不太好了



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk
Hi,请教大家一个问题:

目前使用grafana监控flink的作业,想实现一个任务挂掉就报警的功能,初步想法是:监控checkpoint
size的指标,一旦这个指标为0,就认为任务挂掉,但实际操作后,发现了两个问题:

① 如果kill掉任务,grafana上的flink所有指标都会一直保持最后接收到的值不变;
② 如果cancel掉任务,grafana上的flink所有指标都会突然中断;

所以,我上面说的想法永远都不会出发告警,因为这个checkpoint size的指标在任务挂掉也不会归为0值;

我又尝试了用一分钟前的job_uptime减去一分钟后的job_uptime,但是这样报警并不优雅,在任务刚启动时会有误报,因为任务刚启动时,一分钟前是没有数据的。

所以现在很疑惑,请教一下大家如果用grafana监控flink作业的,该选用什么样的指标和用什么规则,可以优雅的报警呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

请教一个flink消费多kafka topic如何进行数据分配的问题

2020-12-21 文章 bradyMk
Hi~想请教一下大家:

现在我用flink消费5个不同的kafka topic,每个topic都有12个分区,所以我设置了60个并行度;

env.setParallelism(60)

我认为程序设置的并行度是和topic的总分区一一对应的;

但是,程序运行后,我发现只有14个task有从topic消费到数据,其余消费数据量都为0,且有几个是每秒几千条,有几个是每秒几百条。所以现在很疑惑,flink消费多kafka
topic到底是如何进行数据分配的呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1 支持一个 source 指定消费多个 topics么?

2020-12-17 文章 bradyMk
Hi,想请教一下大家:

最近通过flink_taskmanager_job_task_operator_KafkaConsumer_records_consumed_rate指标发现,
flink某个任务消费一个topic A 竟然比消费topic A,B,C,D一起的指标要高,
也就是我四个topic每秒消费的数据竟然还没其中一个topic每秒消费的数据高,
所以想请问:flink1.9.1 支持一个 source 指定消费多个 topics么?
我的代码如下:
val A= params.getProperty("kafka.scene.data.topic")
val B= params.getProperty("kafka.scene.log.topic")
val C= params.getProperty("kafka.event.topic")
val D= params.getProperty("kafka.log.topic")
import scala.collection.JavaConverters._
val topics = List[String](sceneDataTopic, sceneLogTopic, eventTopic,
sdkLog).asJava
env .addSource(new FlinkKafkaConsumer011(topics, new
JSONKeyValueDeserializationSchema(false), kafkaPro))




-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.9.1 如何配置RocksDB的block-cache-usage参数

2020-12-17 文章 bradyMk
Hi~谢谢 Yun Tang 大佬的解答~

不过这个指标不能单任务配置么?官网有这么个提示:

"启用本机指标可能会导致性能下降,应谨慎设置"[1]

所以如果全局配置,其他没有用RocksDB的任务也会尝试发送这个指标,那会不会导致其他任务的性能下降?感觉这样不是很科学啊?


[1]https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/config.html#rocksdb-native-metrics



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1 如何配置RocksDB的block-cache-usage参数

2020-12-17 文章 bradyMk
谢谢 Yun Tang 大佬的解答~

另外,还想请教一下:我在代码中设置开启了cur-size-all-mem-tables的监控,代码如下:
//设置RocksDB状态后端,且开启增量ck
val backend = new RocksDBStateBackend(path, true)

//监控配置项
val metricOptions = new RocksDBNativeMetricOptions
metricOptions.enableSizeAllMemTables()

//设置预选项
backend.setPredefinedOptions(PredefinedOptions.SPINNING_DISK_OPTIMIZED)

//开启RocksDB
env.setStateBackend(backend.asInstanceOf[StateBackend])

但是发现这个监控指标并没有成功发送,请问是我在代码里开启的方式不对么?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


flink1.9.1 如何配置RocksDB的block-cache-usage参数

2020-12-15 文章 bradyMk
Hi~想请教一下大家:

最近使用flink1.9版本用RocksDB做增量ck,我想配置如下两个内容的指标来监控任务的内存情况:
  ①block-cache-usage
  ②write buffer

但是在官网[1]并没有找到相关指标,通过查阅资料得知:
  write buffer对应的指标为:state.backend.rocksdb.metrics.cur-size-all-mem-tables
  而block-cache-usage的指标是1.10版本之后才有的,1.9版本没有这个指标;

问:
①write buffer是否对应这个指标 ->
state.backend.rocksdb.metrics.cur-size-all-mem-tables
②如果1.9没有监控block-cache-usage的直接指标,那么该如何监控block-cache-usage呢?

[1] 
https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/config.html#rocksdb-native-metrics

  






-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.9.1单任务配置rocksDB不生效

2020-12-15 文章 bradyMk
Hi~谢谢解答~

我去查看了下TM的日志,发现的确是启动了rocksDB状态后端;
可是为什么在web ui 中 Job Manager --> Configuration 中
state.backend还是显示的是:filesystem呢?
不应该是:RocksDB 么?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


flink1.9.1单任务配置rocksDB不生效

2020-12-15 文章 bradyMk
Hi,想请教大家一个问题,我用单任务配置使用rocksDB状态后端,代码如下:

val backend = new RocksDBStateBackend(path, true)
backend.setPredefinedOptions(PredefinedOptions.SPINNING_DISK_OPTIMIZED)
env.setStateBackend(backend.asInstanceOf[StateBackend])

但是运行代码后,去webui查看Job Manager --> Configuration
中查看,发现state.backend还是显示filesystem

这是说明我的配置没有生效嘛?如果没有生效,那么如何进行单任务配置rocksDB呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复: re:Re: 回复:一个关于实时合并数据的问题

2020-12-10 文章 bradyMk
Hi~

我这边测试了一下,分配同样的slot和内存,100个key和1亿个key,速度上并没有明显差异



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复:flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-09 文章 bradyMk
弱弱的问一句,相关的配置项是直接在flink-conf.xml文件里配置就可以嘛?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复:flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-09 文章 bradyMk
谢谢大佬解答~最近一直在看相关的知识,我还有两个问题在网上没有找到解答,想咨询一下:

1、如果我不用keyed State,而改用Operator State,Operator
State是所有线程操作一个state么?如果这样,那Operator State是线程安全的么?

2、您之前说的配置 RocksDB 的native
metrics,我在官网看到这些指标都是禁用的,那该如何开启呢?我在代码里貌似没有找到相关方法开启各类RocksDB 的native metrics;




-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-08 文章 bradyMk
好的,谢谢大佬解答~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 答复: flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-07 文章 bradyMk
这面还想多请教一下:

我程序中每来一条数据都会去读MapState然后覆盖写入新的时间戳,刚刚发现某一条数据读出了两条一样的时间戳,我推断是第一个线程读出来后还没等覆盖掉,第二个线程又读了一遍,导致出现两条一样的时间戳;

所以想请问flink中MapState是线程安全的吗?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-07 文章 bradyMk
好的~谢谢大佬解答~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 答复: flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-07 文章 bradyMk
Hi~

可是我这边write buffer以及block cache等参数设置的都不大,都远远小于我分给tm的内存,可为什么还会报超出内存的错误呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: re:Re: 回复:一个关于实时合并数据的问题

2020-12-06 文章 bradyMk
在保证数据量不变的情况下,我并没有测试10亿个key的性能,但我测试了只有8个key的性能,发现背压严重;现在用了100个key,消费正常;所以,我认为,ckpt的性能/时间和key的数量还是有关的



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-06 文章 bradyMk
hi~谢谢解答;

但我的状态用的是RocksDB,实质上不应该是存的磁盘么?为什么会一直占用tm的内存呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-05 文章 bradyMk
大家好~

最近刚刚尝试使用flink 1.9.1 的RocksDB做增量checkpoints;

在程序种设置:
val backend = new RocksDBStateBackend("hdfs://xx/", true)
   
backend.setPredefinedOptions(PredefinedOptions.SPINNING_DISK_OPTIMIZED_HIGH_MEM)
并用MapState保存中间状态;(中间状态大概10个G);

我启动程序时,给taskmanager设置了3G内存:“-ytm 3072m \”,但是我的程序每跑一段时间都会报出超出物理内存的错误:"is
running beyond physical memory limits. Current usage: 3.0 GB of 3 GB
physical memory used; 6.2 GB of 14.6 TB virtual memory used"

我对此有点不解,RocksDB不是会定期把状态写到hdfs么?为什么内存占用会越来越大,最终被yarn
kill掉呢?难道是我漏掉了什么参数配置?希望各位能指点迷津~谢谢大家




-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
对对对,可以取hashCode,我短路了,谢谢哈~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: re:Re: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
这样啊。。那请问如果id是字符串的话,有什么好办法去减少分组么?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
所以您说的这个思路应该是和我上面说的是一样的了吧,根据10亿id做keyby,不会有什么问题么?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
Hi~

可是MapState是只针对keyby后的流才能用啊



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
想请教各位一个问题:目前有一个这样的需求:

数据流40W/s,数据有id,time,type等字段,id有10亿个,现在想30分钟内,同一个id的信息只保存一条,时间的话要用事件的事件,不能用处理的时间。

本人现在的思路是:根据id分组,然后做增量ck,状态信息存储每个id的最后的时间,然后每来一条数据会读取状态信息,然后做时间判断。但是发现这样做背压很高,数据消费很慢

请问各位,我这种思路是否可行?根据id分组会产生10亿个分组,这样会影响什么?还有其他更好的方法么?

谢谢各位解答疑惑!




-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink实时写入Hbase丢数据问题

2020-11-27 文章 bradyMk
大家好,最近有项目要把数据写入hbase,本人采用的是hbase api
中的BufferedMutator.flush的方法,每500条数据flush一下,但是发现这种方法偶尔会有十几行写入失败,这种情况下,这几十行数据就会丢失,请问大家有什么建议么?
该用什么方法实时写入hbase,怎么保证数据不会有丢失的情况呢?谢谢大家~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink实时写入hbase用flush方法频繁报操作超时问题

2020-11-23 文章 bradyMk
补充下上个问题中图片的文字版:
图一:
 if (count > 300) {
mutator.flush()
count = 0
  }
  count = count + 1

图二:
Caused by:
org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed
101 actions: Operation Timeout: 101 times, servers with issues:
172.xx.x.x,16020,1601173606933
at
org.apache.hadoop.hbase.client.AsyncProcess$BatchErrors.makeException(AsyncProcess.java:297)
at
org.apache.hadoop.hbase.client.AsyncProcess$BatchErrors.access$2300(AsyncProcess.java:273)
at
org.apache.hadoop.hbase.client.AsyncProcess.waitForAllPreviousOpsAndReset(AsyncProcess.java:1906)
at
org.apache.hadoop.hbase.client.BufferedMutatorImpl.backgroundFlushCommits(BufferedMutatorImpl.java:250)
at
org.apache.hadoop.hbase.client.BufferedMutatorImpl.flush(BufferedMutatorImpl.java:213)
at
org.apache.flink.streaming.api.operators.StreamSink.processElement(StreamSink.java:56)
at
org.apache.flink.streaming.runtime.tasks.OperatorChain$CopyingChainingOutput.pushToOperator(OperatorChain.java:637)



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


关于flink实时写入hbase用flush方法频繁报操作超时问题

2020-11-23 文章 bradyMk
请教各位:
我用flink实时写入hbase,继承RichSinkFunction后用的hbase的BufferedMutator,每当写入一定量的数据后,就用flush的方法,类似这样:
 
但是我的任务会频繁报出如下错误:
 
感觉貌似是我代码的问题导致的,但又不知道原因,希望得到指导,感激不尽~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Re:关于flink任务挂掉报警的监控指标选择

2020-11-08 文章 bradyMk
可是当任务被kill掉,就不会重启,所以只监控重启指标的话,是不是就会忽略掉任务被kill掉这种情况的报警?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: Re:Re: Flink StreamingFileSink滚动策略

2020-11-08 文章 bradyMk
了解~万分感谢



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Re:Re: Flink StreamingFileSink滚动策略

2020-11-05 文章 bradyMk
Hi,guoliang_wang1335
请问StreamingFileSink用forBulkFormat方法时,可以自定义滚动策略么?你这边实现成功了么?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


关于flink任务挂掉报警的监控指标选择

2020-11-04 文章 bradyMk
请问各位大佬,我基于grafana+prometheus构建的Flink监控,现在想实现flink任务挂掉后,grafana就发出报警的功能,但是目前不知道该用什么指标去监控,我之前想监控flink_jobmanager_job_uptime这个指标,设置的监控规则是:max_over_time(flink_jobmanager_job_uptime[1m])
-
min_over_time(flink_jobmanager_job_uptime[1m])的差小于等于0就报警,但是任务刚启动,会有误报,想请教下有没有更好的办法



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
Hi,您好,请问如何拼接url可以看到已经结束了的任务的tm日志文件呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
您好,请问一下,如何通过拼接url获取已经结束的任务的tm日志呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 bradyMk
谢谢您的解答,我现在已经尝试用这种思路去搞了



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Re:Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 bradyMk
您好,除了手动自己去kill掉任务,我这边经常会有类似丢节点或者写hbase时节点连不上导致整个job挂掉的问题,类似:
Caused by:
org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed
66 actions: Operation Timeout: 66 times, servers with issues:
172.xx.x.xx,16020,1597989428451
at
org.apache.hadoop.hbase.client.AsyncProcess$BatchErrors.makeException(AsyncProcess.java:297)
at
org.apache.hadoop.hbase.client.AsyncProcess$BatchErrors.access$2300(AsyncProcess.java:273)
at
org.apache.hadoop.hbase.client.AsyncProcess.waitForAllPreviousOpsAndReset(AsyncProcess.java:1906)
...
针对这种情况,应该是不能自动拉起的,这种情况,job被kill掉,需要重新提交任务就好了,所以我现在才想需要一个任务自动重启的功能



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Re:flink任务挂掉后自动重启

2020-11-02 文章 bradyMk
您好,你说的这个策略是失败重启策略,但是如果job在某些情况被kill掉,或者重启超过重启次数,任务也会退出;我主要是针对这种情况重启的



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-02 文章 bradyMk
了解了,是我想的太局限了,谢谢zhisheng大佬啦~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
您好,请问每次任务重启后,jm节点是不一样的,你是如何获取到{cluster}的信息的呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
那我们没有这样的计算平台该怎么办呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
zhisheng大佬好~我不是很理解您说的平台层具体是什么意思,指的是什么。。。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
zhisheng大佬好~我不太理解你说的平台层是什么。。。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复: flink任务挂掉后自动重启

2020-10-31 文章 bradyMk
好的,我去试试这种方法,感谢~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink任务挂掉后自动重启

2020-10-29 文章 bradyMk
谢谢您的解答~
重启策略确实可以解决任务故障重启,但是有的时候(例如集群资源不够),任务会直接被kill掉,我想问的是针对被kill掉的任务,有没有什么方法可以自动重启,特别是带有ck的任务,如果想要自动重启,如何在启动的时候自动去hdfs上获取最新的ck地址呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink任务挂掉后自动重启

2020-10-29 文章 bradyMk
flink任务一般都是7*24h在跑的,如果挂掉,有没有什么办法自动重启任务?之前都是任务挂掉然后手动再提交一次任务,但是不可能每次挂掉都可以手动重启;另外,如果对于没做checkpoints的任务,可以通过定时脚本监控yarn,如果任务不存在,则重新提交任务,但是,对于做了checkpoints的任务,我们提交的时候就需要指定ck的目录,这个目录都是在变的,那么又该如何让任务挂掉后能自动重启呢?希望能得到大佬们的指点~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-03 文章 bradyMk
好的,谢谢您,我看一下~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,可以请教一下如何清理Pushgateway中的数据么?我是想主动调用pushgateway的delete方法来删除pushgetway的metrics,但是Pushgateway中的metrics因为设置了randomJobNameSuffix:true参数,导致Pushgateway中的job名称都是随机生成的,那么该如何清理呢?
 



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我之前也想到了这个方法,但是Pushgateway中的metrics因为设置了randomJobNameSuffix:true参数,导致Pushgateway中的job名称都是随机生成的,例如这样:
 
他的名字是随机的,我该怎么用delete方法删除呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
目前我能想到的就是这个办法,但感觉有点曲线救国的意思,不知道还有没有更直接一点的方法



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,您指的定时清理pushgateway里的数据就是定时重启pushgateway么?我这边目前采取的方法就是每天凌晨重启Pushgateway,能请问你这边是怎么重启么?固定时间么?还是有脚本监控任务,当任务挂掉就触发重启Pushgateway?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,您说的这种方法貌似行不通,因为指标数据是没有被删除的,所以不会出现没数据的情况,按您这么查询,查出的列表将会一直有数据的,只是数据会一直不变



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我已经设置了该参数,但是该参数是针对对cancel或者stop的作业有效,但是对kill掉的作业是不会删除掉Pushgateway中残留的指标数据的



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我采用了您说的这种方式,但是会报这样的错误:
"invalid expression type \"range vector\" for range query, must be Scalar or
instant Vector"



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,这个指标我已经设置了,但是这个指标只是针对cancel或者stop某个作业时生效,但是用kill的方式,是删除不掉Pushgateway内残留的数据的



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长;
如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样:
flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长;
如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样:
flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
请教一下大家:
我用flink1.9.1,使用Prometheus Pushgateway
监控,最后在grafana上展示指标,现在遇到了一个问题,就是当flink任务被kill掉后,该任务指标仍然残留在pushgateway里面(虽然数值停止更新,但Prometheus还是会去拉数据),这样就导致了grafana中仍然可以一直看到数据,造成了很多漏报警或者误报警,请问大家对于这种问题的解决,有什么好的建议么?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1用采用-d(分离模式提交)作业报错,但是不加-d是可以正常跑的

2020-08-19 文章 bradyMk
好的,感谢大佬解答!!!



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.9.1用采用-d(分离模式提交)作业报错,但是不加-d是可以正常跑的

2020-08-18 文章 bradyMk
万分感谢!
问题已经解决,确实是包的问题,我很傻的以为不加-d可以运行,那就跟包没关系。
所以说加不加-d,应该是调用不同包的不同方法吧?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1用采用-d(分离模式提交)作业报错,但是不加-d是可以正常跑的

2020-08-16 文章 bradyMk
您好:
我没有尝试过新版本,但是觉得好像不是版本的问题,因为我其他所有flink作业加上-d都能正常运行,就这个不行,并且如果我不用(-d)提交,这个也是可以运行的。我也很奇怪



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1用采用-d(分离模式提交)作业报错,但是不加-d是可以正常跑的

2020-08-14 文章 bradyMk
请问大家:
我采用如下命令提交:
flink run \
-m yarn-cluster \
-yn 3 \
-ys 3 \
-yjm 2048m \
-ytm 2048m \
-ynm flink_test \
-d \
-c net.realtime.app.FlinkTest ./hotmall-flink.jar
就会失败,报错信息如下:
[AMRM Callback Handler Thread] ERROR
org.apache.flink.yarn.YarnResourceManager - Fatal error occurred in
ResourceManager.
java.lang.NoSuchMethodError:
org.apache.hadoop.yarn.api.protocolrecords.AllocateRequest.newInstance(IFLjava/util/List;Ljava/util/List;Ljava/util/List;Lorg/apache/hadoop/yarn/api/records/ResourceBlacklistRequest;)Lorg/apache/hadoop/yarn/api/protocolrecords/AllocateRequest;
at
org.apache.hadoop.yarn.client.api.impl.AMRMClientImpl.allocate(AMRMClientImpl.java:279)
at
org.apache.hadoop.yarn.client.api.async.impl.AMRMClientAsyncImpl$HeartbeatThread.run(AMRMClientAsyncImpl.java:273)
[AMRM Callback Handler Thread] ERROR
org.apache.flink.runtime.entrypoint.ClusterEntrypoint - Fatal error occurred
in the cluster entrypoint.
java.lang.NoSuchMethodError:
org.apache.hadoop.yarn.api.protocolrecords.AllocateRequest.newInstance(IFLjava/util/List;Ljava/util/List;Ljava/util/List;Lorg/apache/hadoop/yarn/api/records/ResourceBlacklistRequest;)Lorg/apache/hadoop/yarn/api/protocolrecords/AllocateRequest;
at
org.apache.hadoop.yarn.client.api.impl.AMRMClientImpl.allocate(AMRMClientImpl.java:279)
at
org.apache.hadoop.yarn.client.api.async.impl.AMRMClientAsyncImpl$HeartbeatThread.run(AMRMClientAsyncImpl.java:273)
[flink-akka.actor.default-dispatcher-2] INFO
org.apache.flink.yarn.YarnResourceManager - ResourceManager
akka.tcp://flink@emr-worker-8.cluster-174460:33650/user/resourcemanager was
granted leadership with fencing token 
[BlobServer shutdown hook] INFO org.apache.flink.runtime.blob.BlobServer -
Stopped BLOB server at 0.0.0.0:36247
 
但是我在提交命令时,不加-d,就可以正常提交运行;更奇怪的是,我运行另一个任务,加了-d参数,可以正常提交。
我这个提交失败的任务开始是用如下命令运行的:
nohup flink run \
-m yarn-cluster \
-yn 3 \
-ys 3 \
-yjm 2048m \
-ytm 2048m \
-ynm flink_test \
-c net.realtime.app.FlinkTest ./hotmall-flink.jar > /logs/flink.log 2>&1 &
 > /logs/nohup.out 2>&1 &

在这个任务挂掉之后,再用-d的方式重启就会出现我开始说的问题,很奇怪,有大佬知道为什么么?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
原来如此!我重新加了-d 运行了任务,果然从 YarnSessionClusterEntrypoint  变成了
YarnJobClusterEntrypoint ,学习到了~这个问题困扰了我好久,真的万分感谢您的解答!谢谢!



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
原来如此!果然用了-d后由 YarnSessionClusterEntrypoint 变成了 YarnJobClusterEntrypoint
;真的是万分感谢!这个问题困扰了我好久,感谢解答疑惑~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
您好:
请问这是flink这个版本自身的bug么?那就意味着没有办法解决了吧,只能手动kill掉?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
您好:
您说的完整的log是这个吧?还麻烦帮我看一下
jobmanager_log.txt
  



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
您好
我这边是用perJob的方式提交的,而且这种现象还是偶发性的,这次错误日志是这样的:

2020-08-04 10:30:14,475 INFO 
org.apache.flink.runtime.executiongraph.ExecutionGraph- Job
flink2Ots (e11a22af324049217fdff28aca9f73a5) switched from state FAILING to
FAILED.
java.lang.Exception: Container released on a *lost* node
at
org.apache.flink.yarn.YarnResourceManager.lambda$onContainersCompleted$0(YarnResourceManager.java:370)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRunAsync(AkkaRpcActor.java:397)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRpcMessage(AkkaRpcActor.java:190)
at
org.apache.flink.runtime.rpc.akka.FencedAkkaRpcActor.handleRpcMessage(FencedAkkaRpcActor.java:74)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleMessage(AkkaRpcActor.java:152)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:26)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:21)
at scala.PartialFunction$class.applyOrElse(PartialFunction.scala:123)
at akka.japi.pf.UnitCaseStatement.applyOrElse(CaseStatements.scala:21)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:170)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at akka.actor.Actor$class.aroundReceive(Actor.scala:517)
at akka.actor.AbstractActor.aroundReceive(AbstractActor.scala:225)
at akka.actor.ActorCell.receiveMessage(ActorCell.scala:592)
at akka.actor.ActorCell.invoke(ActorCell.scala:561)
at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:258)
at akka.dispatch.Mailbox.run(Mailbox.scala:225)
at akka.dispatch.Mailbox.exec(Mailbox.scala:235)
at akka.dispatch.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
at
akka.dispatch.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
at akka.dispatch.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
at
akka.dispatch.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
2020-08-04 10:30:14,476 INFO 
org.apache.flink.runtime.executiongraph.ExecutionGraph- Could not
restart the job flink2Ots (e11a22af324049217fdff28aca9f73a5) because the
restart strategy prevented it.
java.lang.Exception: Container released on a *lost* node
at
org.apache.flink.yarn.YarnResourceManager.lambda$onContainersCompleted$0(YarnResourceManager.java:370)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRunAsync(AkkaRpcActor.java:397)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRpcMessage(AkkaRpcActor.java:190)
at
org.apache.flink.runtime.rpc.akka.FencedAkkaRpcActor.handleRpcMessage(FencedAkkaRpcActor.java:74)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleMessage(AkkaRpcActor.java:152)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:26)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:21)
at scala.PartialFunction$class.applyOrElse(PartialFunction.scala:123)
at akka.japi.pf.UnitCaseStatement.applyOrElse(CaseStatements.scala:21)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:170)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at akka.actor.Actor$class.aroundReceive(Actor.scala:517)
at akka.actor.AbstractActor.aroundReceive(AbstractActor.scala:225)
at akka.actor.ActorCell.receiveMessage(ActorCell.scala:592)
at akka.actor.ActorCell.invoke(ActorCell.scala:561)
at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:258)
at akka.dispatch.Mailbox.run(Mailbox.scala:225)
at akka.dispatch.Mailbox.exec(Mailbox.scala:235)
at akka.dispatch.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
at
akka.dispatch.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
at akka.dispatch.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
at
akka.dispatch.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
2020-08-04 10:30:14,476 INFO 
org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Stopping
checkpoint coordinator for job e11a22af324049217fdff28aca9f73a5.
2020-08-04 10:30:14,476 INFO 
org.apache.flink.runtime.checkpoint.StandaloneCompletedCheckpointStore  -
Shutting down

但是我之前也遇到过这个错误时,yarn上的application是可以退出的。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-03 文章 bradyMk
您好
JM应该还在运行,因为Web Ui还可以看,但是我想知道我这个任务明明已经挂掉了,为什么JM还在运行着?这个需要配置什么参数去解决么?



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-03 文章 bradyMk
请教大家:
flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running,且yarn上分配的资源变成了1,程序中用的是固定延迟重启策略,请问有人知道任务挂掉但yarn上一直在running是什么原因么?

 
 



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.9.1 在WebUI中查看committedOffsets指标为负值

2020-08-02 文章 bradyMk
好的,我去看一下,感谢您的解答~



--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: flink1.9.1 在WebUI中查看committedOffsets指标为负值

2020-07-30 文章 bradyMk
谢谢解答~
这个确实是个不变的值,应该是没有成功提交;而且我发现了,只要是没有设置ck的任务,该指标都会显示这个值,如果设置了ck,就会正常;但是我不懂为什么会这样,请问您知道详细的原因么?



--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1 在WebUI中查看committedOffsets指标为负值

2020-07-29 文章 bradyMk
flink1.9.1
在WebUI中查看Source__Custom_Source.KafkaConsumer.topic.geek-event-target.partition.3.committedOffsets指标为负值,查看官网释义:对于每个分区,最后一次成功提交到Kafka的偏移量。
但我这里为什么是负值呢?
 

希望能得到指导,万分感谢~



--
Sent from: http://apache-flink.147419.n8.nabble.com/