Re: fink on yarn per job container 被杀

2021-02-04 文章 key lou
谢谢 回答. 是指的这个参数 taskmanager.memory.jvm-overhead 调整吗(微信连接有点问题)? 我看邮件列表很多大佬的回答基本上都是要调大堆外内存。 难道 rocksdb 就申请内存的时候就控制不住上限吗?我的state 是会一直增长,但是我希望rocksDB 内存能在我设置的范围内,不至于被 yarn kill . 这块要能实现吗? zhiyezou <1530130...@qq.com> 于2021年2月5日周五 下午1:25写道: > Hi >    可以先jvm-overhead相关配置,具体原理及参数请参考这篇文章, > https://m

Re: 如何在程序里面判断作业是否是重启了

2021-02-04 文章 Zhu Zhu
RuntimeContext 有 getAttemptNumber() 接口,可以看出任务是第几次重跑了。 但是一般来说,我们都是通过外部系统监控 Flink 作业的 numRestarts metric 来判断作业是不是发生了 failover,进行报警。 Thanks, Zhu tison 于2021年2月5日周五 下午12:10写道: > 目前想到的是加一个调度器插件,在重启事件那边 hook 一下。 > > 正常的重启流程貌似没有其他 hook 点了,抄送一下这方面的专家(in cc)看看有没有其他意见。 > > Best, > tison. > > > 熊云昆 于2021

??????fink on yarn per job container ????

2021-02-04 文章 zhiyezou
Hi    ??jvm-overheadhttps://mp.weixin.qq.com/s?__biz=MzU3Mzg4OTMyNQ==&mid=2247490197&;idx=1&sn=b0893a9bf12fbcae76852a156302de95 --  -- ??:

Re: 如何在程序里面判断作业是否是重启了

2021-02-04 文章 tison
目前想到的是加一个调度器插件,在重启事件那边 hook 一下。 正常的重启流程貌似没有其他 hook 点了,抄送一下这方面的专家(in cc)看看有没有其他意见。 Best, tison. 熊云昆 于2021年2月5日周五 上午11:30写道: > > super.getRuntimeContext().getAttemptNumber()试试这个方法获取重启次数试试,如果没有重启过是0,反之每重启一次就会加1 > > > | | > 熊云昆 > | > | > 邮箱:xiongyun...@163.com > | > > 签名由 网易邮箱大师 定制 > > 在2021年02月0

????????????????????????????????????????

2021-02-04 文章 ??????
super.getRuntimeContext().getAttemptNumber()??0??1 | | ?? | | ??xiongyun...@163.com | ?? ??2021??02??04?? 11:42??op ?? -- ??

?????? pyflink??py4j??????????????????????????java???? ??

2021-02-04 文章 ??????
java jvmkerberos??pyflink?? --  -- ??:

Re: pyflink的py4j里是不是可以调用我自己写的java程序 ?

2021-02-04 文章 Xingbo Huang
Hi, 你是想使用java写的udfs吗,你可以调用register_java_function或者create_java_temporary_function来注册你用java写的udfs,具体可以参考文档[1] [1] https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/python/table-api-users-guide/udfs/python_udfs.html#scalar-functions Best, Xingbo 瞿叶奇 <389243...@qq.com> 于2021年2月4日周四

Re: Flink SQL Hive 使用 partition.include 结果跟文档不一致

2021-02-04 文章 Leonard Xu
Hi > 在 2021年2月5日,09:47,macia kk 写道: > > the `latest` only works` when the > streaming hive source table used as temporal table. 只能用在temporal(时态)表中,时态表只能在 temporal join(也就是我们常说的维表join) 中使用 祝好

Flink SQL Hive 使用 partition.include 结果跟文档不一致

2021-02-04 文章 macia kk
Flink 1.12.1 streaming-source.partition.includeOption to set the partitions to read, the supported option are `all` and `latest`, the `all` means read all partitions; the `latest` means read latest partition in order of 'streaming-source.partition.order', the `latest` only works` when the streamin

pyflink??py4j??????????????????????????java???? ??

2021-02-04 文章 ??????
pyflink??py4j??java ??

fink on yarn per job container 被杀

2021-02-04 文章 key lou
各位大佬好 rocksDB state 场景下 state 过大 被杀。 有啥好的解决办法? 为啥在 flink 1.10.1 中 taskmanager.memory.managed.size 限制不住 rocksDB 内存申请?改如何控制上线? java.lang.Exception: Container [pid=137231,containerID=container_e118_1611713951789_92045_01_03] is running beyond physical memory limits. Current usage: 4.1 GB of 4 GB

Re: getCurrentWatermark

2021-02-04 文章 HunterXHunter
currentMaxTimestamp 只是当前数据流里面最大,但不一定是全部的最大。 当数据出现延迟,或者多流的情况下,lastEmittedWatermark 不一定会比 currentMaxTimestamp 小 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql

2021-02-04 文章 HunterXHunter
我做了。。 添加了一个sql语法类似 "select " + "msg," + "count(1) cnt" + " from test" + " where msg = 'hello' " + " group by TUMBLE(rowtime, INTERVAL '30' SECOND), msg " + " EMIT \n" + " WITH DELAY

Re: StreamAPi Window 在使用 .evictor(TimeEvictor.of(Time.seconds(0))).sum().print 报NullPoint

2021-02-04 文章 HunterXHunter
我认为这可能是一个bug (当然也可能是故意这样设计的): 在 EvictingWindowOperator.emitWindowContents()位置: userFunction.process(triggerContext.key, triggerContext.window, processContext, projectedContents, timestampedCollector); 当timestampedCollector的size = 0时; 执行到 ReduceApplyWindowFunction部分: public void apply(K k, W window,