Re: pyflink目前map、flatmap都是process实现,那么process当前如何支持sideoutput呢?

2022-08-04 文章 Dian Fu
是的,当前 PyFlink 还不支持 side output,side output 的支持已经完成开发,会在接下来发布的 1.16 版本中支持。 On Thu, Aug 4, 2022 at 11:50 AM yidan zhao wrote: > 1 需求是根据输入流,根据字段判定,拆分并输出为2个流。 > > 2 目前看 pyflink 的 api,貌似不支持 sideoutput。 > > 3 虽然可以基于输入流 A,连续处理2次,即输入流 A 流向算子 B 和算子 C,分别筛选自己需要的数据进行处理。但这样会导致数据重复传输。 >

Re:Flink 1.15 FileSink合并压缩的小文件后不可读

2022-08-04 文章 左岩
您好,您这种情况我试了一下,确实不可读,具体原因可能还要看hdfs的支持(flink的Gzip压缩出去的文件hdfs是否认可,这个待确认),不过我这边使用lzo压缩,hdfs是可读的,可参考以下内容 // create the stream with kafka source, test_topic must return Student! val kafkaStream: DataStream[Student] = env .addSource(kafkaConsumer) //

Re:Flink Native Kubernetes Resources Requests and Limits

2022-08-04 文章 spoon_lz
可以尝试使用个参数: kubernetes.taskmanager.cpu.limit-factor https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/deployment/config/#kubernetes-taskmanager-cpu-limit-factor On 08/5/2022 09:24,casel.chen wrote: 我通过flink native kubernetes部署flink

Flink Native Kubernetes Resources Requests and Limits

2022-08-04 文章 casel.chen
我通过flink native kubernetes部署flink 1.13.2作业到k8s上发现资源实际使用量远小于请求量,特别是CPU,启动的时候CPU消耗多一些,运行一段时间后CPU消耗显著降低,如果设置CPU值较小的话又会造成作业启动慢的问题,查了一下当前实现中将资源requests恒等于limits,请问该如何分别设置cpu和内存的requests和limits以提高资源使用效率呢?谢谢!