Re: Re:Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk
好的,我研究一下,谢谢指导~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk
Hi~Yun Tang大佬~ 不是很理解为什么监控这个指标需要维护状态?该维护什么状态?怎么去维护呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk
Hi~ 请教一下: ①您说的这个实时计算平台是你们自研的么? ②每分钟调用yarn的rest api 获取作业状态,您是怎么实现的呢?是定时脚本么?我没调用过yarn的rest api ,还不懂该如何调用。。。 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-07 文章 bradyMk
Hi~ 请教一下: ①您说的这个实时计算平台是你们自研的么? ②每分钟调用yarn的rest api 获取作业状态,您是怎么实现的呢?是定时脚本么?我没调用过yarn的rest api ,还不懂改如何调用。。。 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk
Hi~ 我现在也有在用这个办法,可我任务特别多的话,还要求及时报警并发送消息到钉钉群到邮件,这种方法就不太好了 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink作业通过grafana监控,若想发出报警该如何选择指标的问题

2021-01-06 文章 bradyMk
Hi,请教大家一个问题: 目前使用grafana监控flink的作业,想实现一个任务挂掉就报警的功能,初步想法是:监控checkpoint size的指标,一旦这个指标为0,就认为任务挂掉,但实际操作后,发现了两个问题: ① 如果kill掉任务,grafana上的flink所有指标都会一直保持最后接收到的值不变; ② 如果cancel掉任务,grafana上的flink所有指标都会突然中断; 所以,我上面说的想法永远都不会出发告警,因为这个checkpoint size的指标在任务挂掉也不会归为0值;

请教一个flink消费多kafka topic如何进行数据分配的问题

2020-12-21 文章 bradyMk
Hi~想请教一下大家: 现在我用flink消费5个不同的kafka topic,每个topic都有12个分区,所以我设置了60个并行度; env.setParallelism(60) 我认为程序设置的并行度是和topic的总分区一一对应的; 但是,程序运行后,我发现只有14个task有从topic消费到数据,其余消费数据量都为0,且有几个是每秒几千条,有几个是每秒几百条。所以现在很疑惑,flink消费多kafka topic到底是如何进行数据分配的呢? - Best Wishes -- Sent from:

flink1.9.1 支持一个 source 指定消费多个 topics么?

2020-12-17 文章 bradyMk
Hi,想请教一下大家: 最近通过flink_taskmanager_job_task_operator_KafkaConsumer_records_consumed_rate指标发现, flink某个任务消费一个topic A 竟然比消费topic A,B,C,D一起的指标要高, 也就是我四个topic每秒消费的数据竟然还没其中一个topic每秒消费的数据高, 所以想请问:flink1.9.1 支持一个 source 指定消费多个 topics么? 我的代码如下: val A= params.getProperty("kafka.scene.data.topic")

Re: flink1.9.1 如何配置RocksDB的block-cache-usage参数

2020-12-17 文章 bradyMk
Hi~谢谢 Yun Tang 大佬的解答~ 不过这个指标不能单任务配置么?官网有这么个提示: "启用本机指标可能会导致性能下降,应谨慎设置"[1] 所以如果全局配置,其他没有用RocksDB的任务也会尝试发送这个指标,那会不会导致其他任务的性能下降?感觉这样不是很科学啊? [1]https://ci.apache.org/projects/flink/flink-docs-release-1.9/ops/config.html#rocksdb-native-metrics - Best Wishes -- Sent from:

Re: flink1.9.1 如何配置RocksDB的block-cache-usage参数

2020-12-17 文章 bradyMk
谢谢 Yun Tang 大佬的解答~ 另外,还想请教一下:我在代码中设置开启了cur-size-all-mem-tables的监控,代码如下: //设置RocksDB状态后端,且开启增量ck val backend = new RocksDBStateBackend(path, true) //监控配置项 val metricOptions = new RocksDBNativeMetricOptions metricOptions.enableSizeAllMemTables() //设置预选项

flink1.9.1 如何配置RocksDB的block-cache-usage参数

2020-12-15 文章 bradyMk
Hi~想请教一下大家: 最近使用flink1.9版本用RocksDB做增量ck,我想配置如下两个内容的指标来监控任务的内存情况: ①block-cache-usage ②write buffer 但是在官网[1]并没有找到相关指标,通过查阅资料得知: write buffer对应的指标为:state.backend.rocksdb.metrics.cur-size-all-mem-tables 而block-cache-usage的指标是1.10版本之后才有的,1.9版本没有这个指标; 问: ①write buffer是否对应这个指标 ->

Re: flink1.9.1单任务配置rocksDB不生效

2020-12-15 文章 bradyMk
Hi~谢谢解答~ 我去查看了下TM的日志,发现的确是启动了rocksDB状态后端; 可是为什么在web ui 中 Job Manager --> Configuration 中 state.backend还是显示的是:filesystem呢? 不应该是:RocksDB 么? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1单任务配置rocksDB不生效

2020-12-15 文章 bradyMk
Hi,想请教大家一个问题,我用单任务配置使用rocksDB状态后端,代码如下: val backend = new RocksDBStateBackend(path, true) backend.setPredefinedOptions(PredefinedOptions.SPINNING_DISK_OPTIMIZED) env.setStateBackend(backend.asInstanceOf[StateBackend]) 但是运行代码后,去webui查看Job Manager --> Configuration

Re: 回复: re:Re: 回复:一个关于实时合并数据的问题

2020-12-10 文章 bradyMk
Hi~ 我这边测试了一下,分配同样的slot和内存,100个key和1亿个key,速度上并没有明显差异 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-09 文章 bradyMk
弱弱的问一句,相关的配置项是直接在flink-conf.xml文件里配置就可以嘛? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-09 文章 bradyMk
谢谢大佬解答~最近一直在看相关的知识,我还有两个问题在网上没有找到解答,想咨询一下: 1、如果我不用keyed State,而改用Operator State,Operator State是所有线程操作一个state么?如果这样,那Operator State是线程安全的么? 2、您之前说的配置 RocksDB 的native metrics,我在官网看到这些指标都是禁用的,那该如何开启呢?我在代码里貌似没有找到相关方法开启各类RocksDB 的native metrics; - Best Wishes -- Sent from:

Re: 回复:flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-08 文章 bradyMk
好的,谢谢大佬解答~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-07 文章 bradyMk
这面还想多请教一下: 我程序中每来一条数据都会去读MapState然后覆盖写入新的时间戳,刚刚发现某一条数据读出了两条一样的时间戳,我推断是第一个线程读出来后还没等覆盖掉,第二个线程又读了一遍,导致出现两条一样的时间戳; 所以想请问flink中MapState是线程安全的吗? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-07 文章 bradyMk
好的~谢谢大佬解答~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-07 文章 bradyMk
Hi~ 可是我这边write buffer以及block cache等参数设置的都不大,都远远小于我分给tm的内存,可为什么还会报超出内存的错误呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: re:Re: 回复:一个关于实时合并数据的问题

2020-12-06 文章 bradyMk
在保证数据量不变的情况下,我并没有测试10亿个key的性能,但我测试了只有8个key的性能,发现背压严重;现在用了100个key,消费正常;所以,我认为,ckpt的性能/时间和key的数量还是有关的 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 答复: flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-06 文章 bradyMk
hi~谢谢解答; 但我的状态用的是RocksDB,实质上不应该是存的磁盘么?为什么会一直占用tm的内存呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink使用RocksDB增量checkpoints,程序运行一段时间报出:超出物理内存

2020-12-05 文章 bradyMk
大家好~ 最近刚刚尝试使用flink 1.9.1 的RocksDB做增量checkpoints; 在程序种设置: val backend = new RocksDBStateBackend("hdfs://xx/", true) backend.setPredefinedOptions(PredefinedOptions.SPINNING_DISK_OPTIMIZED_HIGH_MEM) 并用MapState保存中间状态;(中间状态大概10个G); 我启动程序时,给taskmanager设置了3G内存:“-ytm 3072m

Re: 回复: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
对对对,可以取hashCode,我短路了,谢谢哈~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: re:Re: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
这样啊。。那请问如果id是字符串的话,有什么好办法去减少分组么? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: re:Re: 回复:一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
所以您说的这个思路应该是和我上面说的是一样的了吧,根据10亿id做keyby,不会有什么问题么? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
Hi~ 可是MapState是只针对keyby后的流才能用啊 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

一个关于实时合并数据的问题

2020-12-04 文章 bradyMk
想请教各位一个问题:目前有一个这样的需求: 数据流40W/s,数据有id,time,type等字段,id有10亿个,现在想30分钟内,同一个id的信息只保存一条,时间的话要用事件的事件,不能用处理的时间。 本人现在的思路是:根据id分组,然后做增量ck,状态信息存储每个id的最后的时间,然后每来一条数据会读取状态信息,然后做时间判断。但是发现这样做背压很高,数据消费很慢 请问各位,我这种思路是否可行?根据id分组会产生10亿个分组,这样会影响什么?还有其他更好的方法么? 谢谢各位解答疑惑! - Best Wishes -- Sent from:

flink实时写入Hbase丢数据问题

2020-11-27 文章 bradyMk
大家好,最近有项目要把数据写入hbase,本人采用的是hbase api 中的BufferedMutator.flush的方法,每500条数据flush一下,但是发现这种方法偶尔会有十几行写入失败,这种情况下,这几十行数据就会丢失,请问大家有什么建议么? 该用什么方法实时写入hbase,怎么保证数据不会有丢失的情况呢?谢谢大家~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于flink实时写入hbase用flush方法频繁报操作超时问题

2020-11-23 文章 bradyMk
补充下上个问题中图片的文字版: 图一: if (count > 300) { mutator.flush() count = 0 } count = count + 1 图二: Caused by: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 101 actions: Operation Timeout: 101 times, servers with issues:

关于flink实时写入hbase用flush方法频繁报操作超时问题

2020-11-23 文章 bradyMk
请教各位: 我用flink实时写入hbase,继承RichSinkFunction后用的hbase的BufferedMutator,每当写入一定量的数据后,就用flush的方法,类似这样: 但是我的任务会频繁报出如下错误:

Re: Re:关于flink任务挂掉报警的监控指标选择

2020-11-08 文章 bradyMk
可是当任务被kill掉,就不会重启,所以只监控重启指标的话,是不是就会忽略掉任务被kill掉这种情况的报警? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: Re:Re: Flink StreamingFileSink滚动策略

2020-11-08 文章 bradyMk
了解~万分感谢 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: Flink StreamingFileSink滚动策略

2020-11-05 文章 bradyMk
Hi,guoliang_wang1335 请问StreamingFileSink用forBulkFormat方法时,可以自定义滚动策略么?你这边实现成功了么? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
Hi,您好,请问如何拼接url可以看到已经结束了的任务的tm日志文件呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: flink on yarn日志问题

2020-11-03 文章 bradyMk
您好,请问一下,如何通过拼接url获取已经结束的任务的tm日志呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 bradyMk
谢谢您的解答,我现在已经尝试用这种思路去搞了 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: Re:flink任务挂掉后自动重启

2020-11-03 文章 bradyMk
您好,除了手动自己去kill掉任务,我这边经常会有类似丢节点或者写hbase时节点连不上导致整个job挂掉的问题,类似: Caused by: org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 66 actions: Operation Timeout: 66 times, servers with issues: 172.xx.x.xx,16020,1597989428451 at

Re: Re:flink任务挂掉后自动重启

2020-11-02 文章 bradyMk
您好,你说的这个策略是失败重启策略,但是如果job在某些情况被kill掉,或者重启超过重启次数,任务也会退出;我主要是针对这种情况重启的 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-02 文章 bradyMk
了解了,是我想的太局限了,谢谢zhisheng大佬啦~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
您好,请问每次任务重启后,jm节点是不一样的,你是如何获取到{cluster}的信息的呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
那我们没有这样的计算平台该怎么办呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
zhisheng大佬好~我不是很理解您说的平台层具体是什么意思,指的是什么。。。 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-11-01 文章 bradyMk
zhisheng大佬好~我不太理解你说的平台层是什么。。。 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复: flink任务挂掉后自动重启

2020-10-31 文章 bradyMk
好的,我去试试这种方法,感谢~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink任务挂掉后自动重启

2020-10-30 文章 bradyMk
谢谢您的解答~ 重启策略确实可以解决任务故障重启,但是有的时候(例如集群资源不够),任务会直接被kill掉,我想问的是针对被kill掉的任务,有没有什么方法可以自动重启,特别是带有ck的任务,如果想要自动重启,如何在启动的时候自动去hdfs上获取最新的ck地址呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink任务挂掉后自动重启

2020-10-29 文章 bradyMk
flink任务一般都是7*24h在跑的,如果挂掉,有没有什么办法自动重启任务?之前都是任务挂掉然后手动再提交一次任务,但是不可能每次挂掉都可以手动重启;另外,如果对于没做checkpoints的任务,可以通过定时脚本监控yarn,如果任务不存在,则重新提交任务,但是,对于做了checkpoints的任务,我们提交的时候就需要指定ck的目录,这个目录都是在变的,那么又该如何让任务挂掉后能自动重启呢?希望能得到大佬们的指点~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Re:Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-04 文章 bradyMk
好的,谢谢您,我看一下~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-02 文章 bradyMk
您好,可以请教一下如何清理Pushgateway中的数据么?我是想主动调用pushgateway的delete方法来删除pushgetway的metrics,但是Pushgateway中的metrics因为设置了randomJobNameSuffix:true参数,导致Pushgateway中的job名称都是随机生成的,那么该如何清理呢? - Best Wishes -- Sent from:

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我之前也想到了这个方法,但是Pushgateway中的metrics因为设置了randomJobNameSuffix:true参数,导致Pushgateway中的job名称都是随机生成的,例如这样: 他的名字是随机的,我该怎么用delete方法删除呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
目前我能想到的就是这个办法,但感觉有点曲线救国的意思,不知道还有没有更直接一点的方法 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,您指的定时清理pushgateway里的数据就是定时重启pushgateway么?我这边目前采取的方法就是每天凌晨重启Pushgateway,能请问你这边是怎么重启么?固定时间么?还是有脚本监控任务,当任务挂掉就触发重启Pushgateway? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,您说的这种方法貌似行不通,因为指标数据是没有被删除的,所以不会出现没数据的情况,按您这么查询,查出的列表将会一直有数据的,只是数据会一直不变 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我已经设置了该参数,但是该参数是针对对cancel或者stop的作业有效,但是对kill掉的作业是不会删除掉Pushgateway中残留的指标数据的 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我采用了您说的这种方式,但是会报这样的错误: "invalid expression type \"range vector\" for range query, must be Scalar or instant Vector" - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,这个指标我已经设置了,但是这个指标只是针对cancel或者stop某个作业时生效,但是用kill的方式,是删除不掉Pushgateway内残留的数据的 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长; 如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样: flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 回复:flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
您好,我不是很懂您的意思,例如我这边有一个这样的指标:flink_jobmanager_job_uptime 监控一个任务的运行时长; 如果该任务被kill掉,那么这个指标的数值会变成一个不变的量,一直显示在grafana中。我不太会promeQL,我尝试这样: flink_jobmanager_job_uptime[1m],这样是个非法查询命令,按照您的意思,应该怎么改呢? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1采用Prometheus Pushgateway监控,当任务被kill掉,但grafana还是可以监控到数据

2020-09-01 文章 bradyMk
请教一下大家: 我用flink1.9.1,使用Prometheus Pushgateway 监控,最后在grafana上展示指标,现在遇到了一个问题,就是当flink任务被kill掉后,该任务指标仍然残留在pushgateway里面(虽然数值停止更新,但Prometheus还是会去拉数据),这样就导致了grafana中仍然可以一直看到数据,造成了很多漏报警或者误报警,请问大家对于这种问题的解决,有什么好的建议么? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1用采用-d(分离模式提交)作业报错,但是不加-d是可以正常跑的

2020-08-19 文章 bradyMk
好的,感谢大佬解答!!! - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1用采用-d(分离模式提交)作业报错,但是不加-d是可以正常跑的

2020-08-17 文章 bradyMk
您好: 我没有尝试过新版本,但是觉得好像不是版本的问题,因为我其他所有flink作业加上-d都能正常运行,就这个不行,并且如果我不用(-d)提交,这个也是可以运行的。我也很奇怪 - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1用采用-d(分离模式提交)作业报错,但是不加-d是可以正常跑的

2020-08-14 文章 bradyMk
请问大家: 我采用如下命令提交: flink run \ -m yarn-cluster \ -yn 3 \ -ys 3 \ -yjm 2048m \ -ytm 2048m \ -ynm flink_test \ -d \ -c net.realtime.app.FlinkTest ./hotmall-flink.jar 就会失败,报错信息如下: [AMRM Callback Handler Thread] ERROR org.apache.flink.yarn.YarnResourceManager - Fatal error occurred in ResourceManager.

Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
原来如此!我重新加了-d 运行了任务,果然从 YarnSessionClusterEntrypoint 变成了 YarnJobClusterEntrypoint ,学习到了~这个问题困扰了我好久,真的万分感谢您的解答!谢谢! - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
原来如此!果然用了-d后由 YarnSessionClusterEntrypoint 变成了 YarnJobClusterEntrypoint ;真的是万分感谢!这个问题困扰了我好久,感谢解答疑惑~ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
您好: 请问这是flink这个版本自身的bug么?那就意味着没有办法解决了吧,只能手动kill掉? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
您好: 您说的完整的log是这个吧?还麻烦帮我看一下 jobmanager_log.txt - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
您好 我这边是用perJob的方式提交的,而且这种现象还是偶发性的,这次错误日志是这样的: 2020-08-04 10:30:14,475 INFO org.apache.flink.runtime.executiongraph.ExecutionGraph- Job flink2Ots (e11a22af324049217fdff28aca9f73a5) switched from state FAILING to FAILED. java.lang.Exception: Container released on a *lost* node at

Re: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-04 文章 bradyMk
您好 JM应该还在运行,因为Web Ui还可以看,但是我想知道我这个任务明明已经挂掉了,为什么JM还在运行着?这个需要配置什么参数去解决么? - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running

2020-08-03 文章 bradyMk
请教大家: flink1.9.1任务已经fail掉了,但在yarn上这个application还是在running,且yarn上分配的资源变成了1,程序中用的是固定延迟重启策略,请问有人知道任务挂掉但yarn上一直在running是什么原因么? -

Re: flink1.9.1 在WebUI中查看committedOffsets指标为负值

2020-07-30 文章 bradyMk
谢谢解答~ 这个确实是个不变的值,应该是没有成功提交;而且我发现了,只要是没有设置ck的任务,该指标都会显示这个值,如果设置了ck,就会正常;但是我不懂为什么会这样,请问您知道详细的原因么? -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink1.9.1 在WebUI中查看committedOffsets指标为负值

2020-07-29 文章 bradyMk
flink1.9.1 在WebUI中查看Source__Custom_Source.KafkaConsumer.topic.geek-event-target.partition.3.committedOffsets指标为负值,查看官网释义:对于每个分区,最后一次成功提交到Kafka的偏移量。 但我这里为什么是负值呢? 希望能得到指导,万分感谢~ -- Sent from: