from:"bradyMk"

Re: Re:Re: Re:flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk

好的，我研究一下，谢谢指导~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk

Hi~Yun Tang大佬~

不是很理解为什么监控这个指标需要维护状态？该维护什么状态？怎么去维护呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk

Hi~
请教一下：
①您说的这个实时计算平台是你们自研的么？
②每分钟调用yarn的rest api 获取作业状态，您是怎么实现的呢？是定时脚本么？我没调用过yarn的rest api ，还不懂该如何调用。。。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk

Hi~
请教一下：
①您说的这个实时计算平台是你们自研的么？
②每分钟调用yarn的rest api 获取作业状态，您是怎么实现的呢？是定时脚本么？我没调用过yarn的rest api ，还不懂改如何调用。。。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk

Hi~

我现在也有在用这个办法，可我任务特别多的话，还要求及时报警并发送消息到钉钉群到邮件，这种方法就不太好了



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink作业通过grafana监控，若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk

Hi，请教大家一个问题：

目前使用grafana监控flink的作业，想实现一个任务挂掉就报警的功能，初步想法是：监控checkpoint
size的指标，一旦这个指标为0，就认为任务挂掉，但实际操作后，发现了两个问题：

① 如果kill掉任务，grafana上的flink所有指标都会一直保持最后接收到的值不变；
② 如果cancel掉任务，grafana上的flink所有指标都会突然中断；

所以，我上面说的想法永远都不会出发告警，因为这个checkpoint size的指标在任务挂掉也不会归为0值；

我又尝试了用一分钟前的job_uptime减去一分钟后的job_uptime，但是这样报警并不优雅，在任务刚启动时会有误报，因为任务刚启动时，一分钟前是没有数据的。

所以现在很疑惑，请教一下大家如果用grafana监控flink作业的，该选用什么样的指标和用什么规则，可以优雅的报警呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

请教一个flink消费多kafka topic如何进行数据分配的问题

2020-12-21 文章 bradyMk

Hi~想请教一下大家：

现在我用flink消费5个不同的kafka topic，每个topic都有12个分区，所以我设置了60个并行度；

env.setParallelism(60)

我认为程序设置的并行度是和topic的总分区一一对应的；

但是，程序运行后，我发现只有14个task有从topic消费到数据，其余消费数据量都为0，且有几个是每秒几千条，有几个是每秒几百条。所以现在很疑惑，flink消费多kafka
topic到底是如何进行数据分配的呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1 支持一个 source 指定消费多个 topics么？

2020-12-17 文章 bradyMk

Hi，想请教一下大家：

最近通过flink_taskmanager_job_task_operator_KafkaConsumer_records_consumed_rate指标发现，
flink某个任务消费一个topic A 竟然比消费topic A,B,C,D一起的指标要高，
也就是我四个topic每秒消费的数据竟然还没其中一个topic每秒消费的数据高，
所以想请问：flink1.9.1 支持一个 source 指定消费多个 topics么？
我的代码如下：
val A= params.getProperty("kafka.scene.data.topic")
val B= params.getProperty("kafka.scene.log.topic")
val C= params.getProperty("kafka.event.topic")
val D= params.getProperty("kafka.log.topic")
import scala.collection.JavaConverters._
val topics = List[String](sceneDataTopic, sceneLogTopic, eventTopic,
sdkLog).asJava
env .addSource(new FlinkKafkaConsumer011(topics, new
JSONKeyValueDeserializationSchema(false), kafkaPro))




-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1 如何配置RocksDB的block-cache-usage参数

2020-12-17 文章 bradyMk

Hi~谢谢 Yun Tang 大佬的解答~

不过这个指标不能单任务配置么？官网有这么个提示：

"启用本机指标可能会导致性能下降，应谨慎设置"[1]

所以如果全局配置，其他没有用RocksDB的任务也会尝试发送这个指标，那会不会导致其他任务的性能下降？感觉这样不是很科学啊？


[1]https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/config.html#rocksdb-native-metrics



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1 如何配置RocksDB的block-cache-usage参数

2020-12-17 文章 bradyMk

谢谢 Yun Tang 大佬的解答~

另外，还想请教一下：我在代码中设置开启了cur-size-all-mem-tables的监控，代码如下：
//设置RocksDB状态后端，且开启增量ck
val backend = new RocksDBStateBackend(path, true)

//监控配置项
val metricOptions = new RocksDBNativeMetricOptions
metricOptions.enableSizeAllMemTables()

//设置预选项
backend.setPredefinedOptions(PredefinedOptions.SPINNING_DISK_OPTIMIZED)

//开启RocksDB
env.setStateBackend(backend.asInstanceOf[StateBackend])

但是发现这个监控指标并没有成功发送，请问是我在代码里开启的方式不对么？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1 如何配置RocksDB的block-cache-usage参数

2020-12-15 文章 bradyMk

Hi~想请教一下大家：

最近使用flink1.9版本用RocksDB做增量ck，我想配置如下两个内容的指标来监控任务的内存情况：
  ①block-cache-usage
  ②write buffer

但是在官网[1]并没有找到相关指标，通过查阅资料得知：
  write buffer对应的指标为：state.backend.rocksdb.metrics.cur-size-all-mem-tables
  而block-cache-usage的指标是1.10版本之后才有的，1.9版本没有这个指标；

问：
①write buffer是否对应这个指标 ->
state.backend.rocksdb.metrics.cur-size-all-mem-tables
②如果1.9没有监控block-cache-usage的直接指标，那么该如何监控block-cache-usage呢？

[1] 
https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/config.html#rocksdb-native-metrics

  






-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1单任务配置rocksDB不生效

2020-12-15 文章 bradyMk

Hi~谢谢解答~

我去查看了下TM的日志，发现的确是启动了rocksDB状态后端；
可是为什么在web ui 中 Job Manager --> Configuration 中
state.backend还是显示的是：filesystem呢？
不应该是：RocksDB 么？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1单任务配置rocksDB不生效

2020-12-15 文章 bradyMk

Hi，想请教大家一个问题，我用单任务配置使用rocksDB状态后端，代码如下：

val backend = new RocksDBStateBackend(path, true)
backend.setPredefinedOptions(PredefinedOptions.SPINNING_DISK_OPTIMIZED)
env.setStateBackend(backend.asInstanceOf[StateBackend])

但是运行代码后，去webui查看Job Manager --> Configuration
中查看，发现state.backend还是显示filesystem

这是说明我的配置没有生效嘛？如果没有生效，那么如何进行单任务配置rocksDB呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复： re:Re: 回复：一个关于实时合并数据的问题

2020-12-10 文章 bradyMk

Hi~

我这边测试了一下，分配同样的slot和内存，100个key和1亿个key，速度上并没有明显差异



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink使用RocksDB增量checkpoints，程序运行一段时间报出：超出物理内存

2020-12-09 文章 bradyMk

弱弱的问一句，相关的配置项是直接在flink-conf.xml文件里配置就可以嘛？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink使用RocksDB增量checkpoints，程序运行一段时间报出：超出物理内存

2020-12-09 文章 bradyMk

谢谢大佬解答~最近一直在看相关的知识，我还有两个问题在网上没有找到解答，想咨询一下：

1、如果我不用keyed State，而改用Operator State，Operator
State是所有线程操作一个state么？如果这样，那Operator State是线程安全的么？

2、您之前说的配置 RocksDB 的native
metrics，我在官网看到这些指标都是禁用的，那该如何开启呢？我在代码里貌似没有找到相关方法开启各类RocksDB 的native metrics；




-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink使用RocksDB增量checkpoints，程序运行一段时间报出：超出物理内存

2020-12-08 文章 bradyMk

好的，谢谢大佬解答~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints，程序运行一段时间报出：超出物理内存

2020-12-07 文章 bradyMk

这面还想多请教一下：

我程序中每来一条数据都会去读MapState然后覆盖写入新的时间戳，刚刚发现某一条数据读出了两条一样的时间戳，我推断是第一个线程读出来后还没等覆盖掉，第二个线程又读了一遍，导致出现两条一样的时间戳；

所以想请问flink中MapState是线程安全的吗？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints，程序运行一段时间报出：超出物理内存

2020-12-07 文章 bradyMk

好的~谢谢大佬解答~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints，程序运行一段时间报出：超出物理内存

2020-12-07 文章 bradyMk

Hi~

可是我这边write buffer以及block cache等参数设置的都不大，都远远小于我分给tm的内存，可为什么还会报超出内存的错误呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复： re:Re: 回复：一个关于实时合并数据的问题

2020-12-06 文章 bradyMk

在保证数据量不变的情况下，我并没有测试10亿个key的性能，但我测试了只有8个key的性能，发现背压严重；现在用了100个key，消费正常；所以，我认为，ckpt的性能/时间和key的数量还是有关的



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints，程序运行一段时间报出：超出物理内存

2020-12-06 文章 bradyMk

hi~谢谢解答；

但我的状态用的是RocksDB，实质上不应该是存的磁盘么？为什么会一直占用tm的内存呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink使用RocksDB增量checkpoints，程序运行一段时间报出：超出物理内存

2020-12-05 文章 bradyMk

大家好~

最近刚刚尝试使用flink 1.9.1 的RocksDB做增量checkpoints；

在程序种设置：
val backend = new RocksDBStateBackend("hdfs://xx/", true)
   
backend.setPredefinedOptions(PredefinedOptions.SPINNING_DISK_OPTIMIZED_HIGH_MEM)
并用MapState保存中间状态；（中间状态大概10个G）；

我启动程序时，给taskmanager设置了3G内存：“-ytm 3072m \”，但是我的程序每跑一段时间都会报出超出物理内存的错误："is
running beyond physical memory limits. Current usage: 3.0 GB of 3 GB
physical memory used; 6.2 GB of 14.6 TB virtual memory used"

我对此有点不解，RocksDB不是会定期把状态写到hdfs么？为什么内存占用会越来越大，最终被yarn
kill掉呢？难道是我漏掉了什么参数配置？希望各位能指点迷津~谢谢大家




-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复： re:Re: 回复：一个关于实时合并数据的问题

2020-12-04 文章 bradyMk

对对对，可以取hashCode，我短路了，谢谢哈~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: re:Re: re:Re: 回复：一个关于实时合并数据的问题

2020-12-04 文章 bradyMk

这样啊。。那请问如果id是字符串的话，有什么好办法去减少分组么？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: re:Re: 回复：一个关于实时合并数据的问题

2020-12-04 文章 bradyMk

所以您说的这个思路应该是和我上面说的是一样的了吧，根据10亿id做keyby，不会有什么问题么？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：一个关于实时合并数据的问题

2020-12-04 文章 bradyMk

Hi~

可是MapState是只针对keyby后的流才能用啊



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

一个关于实时合并数据的问题

2020-12-04 文章 bradyMk

想请教各位一个问题：目前有一个这样的需求：

数据流40W/s,数据有id，time，type等字段，id有10亿个，现在想30分钟内，同一个id的信息只保存一条，时间的话要用事件的事件，不能用处理的时间。

本人现在的思路是：根据id分组，然后做增量ck，状态信息存储每个id的最后的时间，然后每来一条数据会读取状态信息，然后做时间判断。但是发现这样做背压很高，数据消费很慢

请问各位，我这种思路是否可行？根据id分组会产生10亿个分组，这样会影响什么？还有其他更好的方法么？

谢谢各位解答疑惑！




-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink实时写入Hbase丢数据问题

2020-11-27 文章 bradyMk

大家好，最近有项目要把数据写入hbase，本人采用的是hbase api
中的BufferedMutator.flush的方法，每500条数据flush一下，但是发现这种方法偶尔会有十几行写入失败，这种情况下，这几十行数据就会丢失，请问大家有什么建议么？
该用什么方法实时写入hbase，怎么保证数据不会有丢失的情况呢？谢谢大家~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink实时写入hbase用flush方法频繁报操作超时问题

2020-11-23 文章 bradyMk

补充下上个问题中图片的文字版：
图一：
 if (count > 300) {
mutator.flush()
count = 0
  }
  count = count + 1

图二：
Caused by:
org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed
101 actions: Operation Timeout: 101 times, servers with issues:
172.xx.x.x,16020,1601173606933
at
org.apache.hadoop.hbase.client.AsyncProcess$BatchErrors.makeException(AsyncProcess.java:297)
at
org.apache.hadoop.hbase.client.AsyncProcess$BatchErrors.access$2300(AsyncProcess.java:273)
at
org.apache.hadoop.hbase.client.AsyncProcess.waitForAllPreviousOpsAndReset(AsyncProcess.java:1906)
at
org.apache.hadoop.hbase.client.BufferedMutatorImpl.backgroundFlushCommits(BufferedMutatorImpl.java:250)
at
org.apache.hadoop.hbase.client.BufferedMutatorImpl.flush(BufferedMutatorImpl.java:213)
at
org.apache.flink.streaming.api.operators.StreamSink.processElement(StreamSink.java:56)
at
org.apache.flink.streaming.runtime.tasks.OperatorChain$CopyingChainingOutput.pushToOperator(OperatorChain.java:637)



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

关于flink实时写入hbase用flush方法频繁报操作超时问题

2020-11-23 文章 bradyMk

请教各位：
我用flink实时写入hbase，继承RichSinkFunction后用的hbase的BufferedMutator，每当写入一定量的数据后，就用flush的方法，类似这样：
 
但是我的任务会频繁报出如下错误：
 
感觉貌似是我代码的问题导致的，但又不知道原因，希望得到指导，感激不尽~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:关于flink任务挂掉报警的监控指标选择

2020-11-08 文章 bradyMk

可是当任务被kill掉，就不会重启，所以只监控重启指标的话，是不是就会忽略掉任务被kill掉这种情况的报警？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: Re:Re: Flink StreamingFileSink滚动策略

2020-11-08 文章 bradyMk

了解~万分感谢



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: Flink StreamingFileSink滚动策略

2020-11-05 文章 bradyMk

Hi，guoliang_wang1335
请问StreamingFileSink用forBulkFormat方法时，可以自定义滚动策略么？你这边实现成功了么？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

关于flink任务挂掉报警的监控指标选择

2020-11-04 文章 bradyMk

请问各位大佬，我基于grafana+prometheus构建的Flink监控，现在想实现flink任务挂掉后，grafana就发出报警的功能，但是目前不知道该用什么指标去监控，我之前想监控flink_jobmanager_job_uptime这个指标，设置的监控规则是：max_over_time(flink_jobmanager_job_uptime[1m])
-
min_over_time(flink_jobmanager_job_uptime[1m])的差小于等于0就报警，但是任务刚启动，会有误报，想请教下有没有更好的办法



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk

Hi,您好，请问如何拼接url可以看到已经结束了的任务的tm日志文件呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk

您好，请问一下，如何通过拼接url获取已经结束的任务的tm日志呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 bradyMk

谢谢您的解答，我现在已经尝试用这种思路去搞了



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 bradyMk

您好，除了手动自己去kill掉任务，我这边经常会有类似丢节点或者写hbase时节点连不上导致整个job挂掉的问题，类似：
Caused by:
org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed
66 actions: Operation Timeout: 66 times, servers with issues:
172.xx.x.xx,16020,1597989428451
at
org.apache.hadoop.hbase.client.AsyncProcess$BatchErrors.makeException(AsyncProcess.java:297)
at
org.apache.hadoop.hbase.client.AsyncProcess$BatchErrors.access$2300(AsyncProcess.java:273)
at
org.apache.hadoop.hbase.client.AsyncProcess.waitForAllPreviousOpsAndReset(AsyncProcess.java:1906)
...
针对这种情况，应该是不能自动拉起的，这种情况，job被kill掉，需要重新提交任务就好了，所以我现在才想需要一个任务自动重启的功能



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:flink任务挂掉后自动重启

2020-11-02 文章 bradyMk

您好，你说的这个策略是失败重启策略，但是如果job在某些情况被kill掉，或者重启超过重启次数，任务也会退出；我主要是针对这种情况重启的



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-02 文章 bradyMk

了解了，是我想的太局限了，谢谢zhisheng大佬啦~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk

您好，请问每次任务重启后，jm节点是不一样的，你是如何获取到{cluster}的信息的呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk

那我们没有这样的计算平台该怎么办呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk

zhisheng大佬好~我不是很理解您说的平台层具体是什么意思，指的是什么。。。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk

zhisheng大佬好~我不太理解你说的平台层是什么。。。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-10-31 文章 bradyMk

好的，我去试试这种方法，感谢~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink任务挂掉后自动重启

2020-10-29 文章 bradyMk

谢谢您的解答~
重启策略确实可以解决任务故障重启，但是有的时候（例如集群资源不够），任务会直接被kill掉，我想问的是针对被kill掉的任务，有没有什么方法可以自动重启，特别是带有ck的任务，如果想要自动重启，如何在启动的时候自动去hdfs上获取最新的ck地址呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink任务挂掉后自动重启

2020-10-29 文章 bradyMk

flink任务一般都是7*24h在跑的，如果挂掉，有没有什么办法自动重启任务？之前都是任务挂掉然后手动再提交一次任务，但是不可能每次挂掉都可以手动重启；另外，如果对于没做checkpoints的任务，可以通过定时脚本监控yarn，如果任务不存在，则重新提交任务，但是，对于做了checkpoints的任务，我们提交的时候就需要指定ck的目录，这个目录都是在变的，那么又该如何让任务挂掉后能自动重启呢？希望能得到大佬们的指点~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-03 文章 bradyMk

好的，谢谢您，我看一下~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

您好，可以请教一下如何清理Pushgateway中的数据么？我是想主动调用pushgateway的delete方法来删除pushgetway的metrics，但是Pushgateway中的metrics因为设置了randomJobNameSuffix：true参数，导致Pushgateway中的job名称都是随机生成的，那么该如何清理呢？
 



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

您好，我之前也想到了这个方法，但是Pushgateway中的metrics因为设置了randomJobNameSuffix：true参数，导致Pushgateway中的job名称都是随机生成的，例如这样：
 
他的名字是随机的，我该怎么用delete方法删除呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

目前我能想到的就是这个办法，但感觉有点曲线救国的意思，不知道还有没有更直接一点的方法



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

您好，您指的定时清理pushgateway里的数据就是定时重启pushgateway么？我这边目前采取的方法就是每天凌晨重启Pushgateway，能请问你这边是怎么重启么？固定时间么？还是有脚本监控任务，当任务挂掉就触发重启Pushgateway？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

您好，您说的这种方法貌似行不通，因为指标数据是没有被删除的，所以不会出现没数据的情况，按您这么查询，查出的列表将会一直有数据的，只是数据会一直不变



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

您好，我已经设置了该参数，但是该参数是针对对cancel或者stop的作业有效，但是对kill掉的作业是不会删除掉Pushgateway中残留的指标数据的



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

您好，我采用了您说的这种方式，但是会报这样的错误：
"invalid expression type \"range vector\" for range query, must be Scalar or
instant Vector"



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

您好，这个指标我已经设置了，但是这个指标只是针对cancel或者stop某个作业时生效，但是用kill的方式，是删除不掉Pushgateway内残留的数据的



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

您好，我不是很懂您的意思，例如我这边有一个这样的指标：flink_jobmanager_job_uptime 监控一个任务的运行时长；
如果该任务被kill掉，那么这个指标的数值会变成一个不变的量，一直显示在grafana中。我不太会promeQL，我尝试这样：
flink_jobmanager_job_uptime[1m]，这样是个非法查询命令，按照您的意思，应该怎么改呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复：flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

您好，我不是很懂您的意思，例如我这边有一个这样的指标：flink_jobmanager_job_uptime 监控一个任务的运行时长；
如果该任务被kill掉，那么这个指标的数值会变成一个不变的量，一直显示在grafana中。我不太会promeQL，我尝试这样：
flink_jobmanager_job_uptime[1m]，这样是个非法查询命令，按照您的意思，应该怎么改呢？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1采用Prometheus Pushgateway监控，当任务被kill掉，但grafana还是可以监控到数据

2020-09-01 文章 bradyMk

请教一下大家：
我用flink1.9.1，使用Prometheus Pushgateway
监控，最后在grafana上展示指标，现在遇到了一个问题，就是当flink任务被kill掉后，该任务指标仍然残留在pushgateway里面（虽然数值停止更新，但Prometheus还是会去拉数据），这样就导致了grafana中仍然可以一直看到数据，造成了很多漏报警或者误报警，请问大家对于这种问题的解决，有什么好的建议么？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1用采用-d（分离模式提交）作业报错，但是不加-d是可以正常跑的

2020-08-19 文章 bradyMk

好的，感谢大佬解答！！！



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1用采用-d（分离模式提交）作业报错，但是不加-d是可以正常跑的

2020-08-18 文章 bradyMk

万分感谢！
问题已经解决，确实是包的问题，我很傻的以为不加-d可以运行，那就跟包没关系。
所以说加不加-d，应该是调用不同包的不同方法吧？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1用采用-d（分离模式提交）作业报错，但是不加-d是可以正常跑的

2020-08-16 文章 bradyMk

您好：
我没有尝试过新版本，但是觉得好像不是版本的问题，因为我其他所有flink作业加上-d都能正常运行，就这个不行，并且如果我不用（-d）提交，这个也是可以运行的。我也很奇怪



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1用采用-d（分离模式提交）作业报错，但是不加-d是可以正常跑的

2020-08-14 文章 bradyMk

请问大家：
我采用如下命令提交：
flink run \
-m yarn-cluster \
-yn 3 \
-ys 3 \
-yjm 2048m \
-ytm 2048m \
-ynm flink_test \
-d \
-c net.realtime.app.FlinkTest ./hotmall-flink.jar
就会失败，报错信息如下：
[AMRM Callback Handler Thread] ERROR
org.apache.flink.yarn.YarnResourceManager - Fatal error occurred in
ResourceManager.
java.lang.NoSuchMethodError:
org.apache.hadoop.yarn.api.protocolrecords.AllocateRequest.newInstance(IFLjava/util/List;Ljava/util/List;Ljava/util/List;Lorg/apache/hadoop/yarn/api/records/ResourceBlacklistRequest;)Lorg/apache/hadoop/yarn/api/protocolrecords/AllocateRequest;
at
org.apache.hadoop.yarn.client.api.impl.AMRMClientImpl.allocate(AMRMClientImpl.java:279)
at
org.apache.hadoop.yarn.client.api.async.impl.AMRMClientAsyncImpl$HeartbeatThread.run(AMRMClientAsyncImpl.java:273)
[AMRM Callback Handler Thread] ERROR
org.apache.flink.runtime.entrypoint.ClusterEntrypoint - Fatal error occurred
in the cluster entrypoint.
java.lang.NoSuchMethodError:
org.apache.hadoop.yarn.api.protocolrecords.AllocateRequest.newInstance(IFLjava/util/List;Ljava/util/List;Ljava/util/List;Lorg/apache/hadoop/yarn/api/records/ResourceBlacklistRequest;)Lorg/apache/hadoop/yarn/api/protocolrecords/AllocateRequest;
at
org.apache.hadoop.yarn.client.api.impl.AMRMClientImpl.allocate(AMRMClientImpl.java:279)
at
org.apache.hadoop.yarn.client.api.async.impl.AMRMClientAsyncImpl$HeartbeatThread.run(AMRMClientAsyncImpl.java:273)
[flink-akka.actor.default-dispatcher-2] INFO
org.apache.flink.yarn.YarnResourceManager - ResourceManager
akka.tcp://flink@emr-worker-8.cluster-174460:33650/user/resourcemanager was
granted leadership with fencing token 
[BlobServer shutdown hook] INFO org.apache.flink.runtime.blob.BlobServer -
Stopped BLOB server at 0.0.0.0:36247
 
但是我在提交命令时，不加-d，就可以正常提交运行；更奇怪的是，我运行另一个任务，加了-d参数，可以正常提交。
我这个提交失败的任务开始是用如下命令运行的：
nohup flink run \
-m yarn-cluster \
-yn 3 \
-ys 3 \
-yjm 2048m \
-ytm 2048m \
-ynm flink_test \
-c net.realtime.app.FlinkTest ./hotmall-flink.jar > /logs/flink.log 2>&1 &
 > /logs/nohup.out 2>&1 &

在这个任务挂掉之后，再用-d的方式重启就会出现我开始说的问题，很奇怪，有大佬知道为什么么？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了，但在yarn上这个application还是在running

2020-08-04 文章 bradyMk

原来如此！我重新加了-d 运行了任务，果然从 YarnSessionClusterEntrypoint  变成了
YarnJobClusterEntrypoint ，学习到了~这个问题困扰了我好久，真的万分感谢您的解答！谢谢！



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了，但在yarn上这个application还是在running

2020-08-04 文章 bradyMk

原来如此！果然用了-d后由 YarnSessionClusterEntrypoint 变成了 YarnJobClusterEntrypoint
；真的是万分感谢！这个问题困扰了我好久，感谢解答疑惑~



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了，但在yarn上这个application还是在running

2020-08-04 文章 bradyMk

您好：
请问这是flink这个版本自身的bug么？那就意味着没有办法解决了吧，只能手动kill掉？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了，但在yarn上这个application还是在running

2020-08-04 文章 bradyMk

您好：
您说的完整的log是这个吧？还麻烦帮我看一下
jobmanager_log.txt
  



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了，但在yarn上这个application还是在running

2020-08-04 文章 bradyMk

您好
我这边是用perJob的方式提交的，而且这种现象还是偶发性的，这次错误日志是这样的：

2020-08-04 10:30:14,475 INFO 
org.apache.flink.runtime.executiongraph.ExecutionGraph- Job
flink2Ots (e11a22af324049217fdff28aca9f73a5) switched from state FAILING to
FAILED.
java.lang.Exception: Container released on a *lost* node
at
org.apache.flink.yarn.YarnResourceManager.lambda$onContainersCompleted$0(YarnResourceManager.java:370)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRunAsync(AkkaRpcActor.java:397)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRpcMessage(AkkaRpcActor.java:190)
at
org.apache.flink.runtime.rpc.akka.FencedAkkaRpcActor.handleRpcMessage(FencedAkkaRpcActor.java:74)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleMessage(AkkaRpcActor.java:152)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:26)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:21)
at scala.PartialFunction$class.applyOrElse(PartialFunction.scala:123)
at akka.japi.pf.UnitCaseStatement.applyOrElse(CaseStatements.scala:21)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:170)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at akka.actor.Actor$class.aroundReceive(Actor.scala:517)
at akka.actor.AbstractActor.aroundReceive(AbstractActor.scala:225)
at akka.actor.ActorCell.receiveMessage(ActorCell.scala:592)
at akka.actor.ActorCell.invoke(ActorCell.scala:561)
at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:258)
at akka.dispatch.Mailbox.run(Mailbox.scala:225)
at akka.dispatch.Mailbox.exec(Mailbox.scala:235)
at akka.dispatch.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
at
akka.dispatch.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
at akka.dispatch.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
at
akka.dispatch.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
2020-08-04 10:30:14,476 INFO 
org.apache.flink.runtime.executiongraph.ExecutionGraph- Could not
restart the job flink2Ots (e11a22af324049217fdff28aca9f73a5) because the
restart strategy prevented it.
java.lang.Exception: Container released on a *lost* node
at
org.apache.flink.yarn.YarnResourceManager.lambda$onContainersCompleted$0(YarnResourceManager.java:370)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRunAsync(AkkaRpcActor.java:397)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRpcMessage(AkkaRpcActor.java:190)
at
org.apache.flink.runtime.rpc.akka.FencedAkkaRpcActor.handleRpcMessage(FencedAkkaRpcActor.java:74)
at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleMessage(AkkaRpcActor.java:152)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:26)
at akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:21)
at scala.PartialFunction$class.applyOrElse(PartialFunction.scala:123)
at akka.japi.pf.UnitCaseStatement.applyOrElse(CaseStatements.scala:21)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:170)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
at akka.actor.Actor$class.aroundReceive(Actor.scala:517)
at akka.actor.AbstractActor.aroundReceive(AbstractActor.scala:225)
at akka.actor.ActorCell.receiveMessage(ActorCell.scala:592)
at akka.actor.ActorCell.invoke(ActorCell.scala:561)
at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:258)
at akka.dispatch.Mailbox.run(Mailbox.scala:225)
at akka.dispatch.Mailbox.exec(Mailbox.scala:235)
at akka.dispatch.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
at
akka.dispatch.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
at akka.dispatch.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
at
akka.dispatch.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
2020-08-04 10:30:14,476 INFO 
org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Stopping
checkpoint coordinator for job e11a22af324049217fdff28aca9f73a5.
2020-08-04 10:30:14,476 INFO 
org.apache.flink.runtime.checkpoint.StandaloneCompletedCheckpointStore  -
Shutting down

但是我之前也遇到过这个错误时，yarn上的application是可以退出的。



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了，但在yarn上这个application还是在running

2020-08-03 文章 bradyMk

您好
JM应该还在运行，因为Web Ui还可以看，但是我想知道我这个任务明明已经挂掉了，为什么JM还在运行着？这个需要配置什么参数去解决么？



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1任务已经fail掉了，但在yarn上这个application还是在running

2020-08-03 文章 bradyMk

请教大家：
flink1.9.1任务已经fail掉了，但在yarn上这个application还是在running，且yarn上分配的资源变成了1，程序中用的是固定延迟重启策略，请问有人知道任务挂掉但yarn上一直在running是什么原因么？

 
 



-
Best Wishes
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1 在WebUI中查看committedOffsets指标为负值

2020-08-02 文章 bradyMk

好的，我去看一下，感谢您的解答~



--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1 在WebUI中查看committedOffsets指标为负值

2020-07-30 文章 bradyMk

谢谢解答~
这个确实是个不变的值，应该是没有成功提交；而且我发现了，只要是没有设置ck的任务，该指标都会显示这个值，如果设置了ck，就会正常；但是我不懂为什么会这样，请问您知道详细的原因么？



--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1 在WebUI中查看committedOffsets指标为负值

2020-07-29 文章 bradyMk

flink1.9.1
在WebUI中查看Source__Custom_Source.KafkaConsumer.topic.geek-event-target.partition.3.committedOffsets指标为负值，查看官网释义：对于每个分区，最后一次成功提交到Kafka的偏移量。
但我这里为什么是负值呢？
 

希望能得到指导，万分感谢~



--
Sent from: http://apache-flink.147419.n8.nabble.com/

74 matches

Mail list logo