subject:"如何按比例丢弃kafka中消费的数据"

如何按比例丢弃kafka中消费的数据

2022-02-25 Thread jack zhang

1、flink程序资源有限，kafka中数据比较多，想要按一定比例丢弃数据(或者其它策略)，减轻flink 程序压力，有什么方法吗？

Re: 如何按比例丢弃kafka中消费的数据

2022-02-27 Thread 18703416...@163.com

自定义 kafkasource 的 DeserializationSchema
丢弃的返回 null， source 的下一个filter 算子进行过滤即可

> 2022年2月26日 上午9:01，jack zhang  写道：
> 
> 1、flink程序资源有限，kafka中数据比较多，想要按一定比例丢弃数据(或者其它策略)，减轻flink 程序压力，有什么方法吗？

Re: 如何按比例丢弃kafka中消费的数据

2022-02-27 Thread 张昊陈

你好，使用 DataStream API 的话你可以在读入数据后紧接着用 filter 方法根据一定策略过滤掉一部分数据再进行业务处理即可。

Best,
Zhanghao Chen

From: jack zhang 
Sent: Saturday, February 26, 2022 9:01
To: user-zh@flink.apache.org 
Subject: 如何按比例丢弃kafka中消费的数据

1、flink程序资源有限，kafka中数据比较多，想要按一定比例丢弃数据(或者其它策略)，减轻flink 程序压力，有什么方法吗？

Re: 如何按比例丢弃kafka中消费的数据

2022-03-12 Thread 史延朋

另外，如果只是某些时刻数据比较多，实现connector侧的限流会不会好一些，另外是否可以考虑建一个关于connector侧限流相关的issue讨论下（不确定是否已经有相关的讨论）

Re:Re: 如何按比例丢弃kafka中消费的数据

2022-03-12 Thread chenkaibit




我们搞过一个 connector，在消费的 kafka 数据积压(流量高峰)的时候丢弃某个时间或某个 offset 
之前的数据，尽量消费比较新的数据；不同的丢弃策略有不同的方案，像这种比较定制化的场景可能得自己实现了




--

Best, yuchuan





在 2022-03-12 17:45:59，"史延朋"  写道：
>另外，如果只是某些时刻数据比较多，实现connector侧的限流会不会好一些，另外是否可以考虑建一个关于connector侧限流相关的issue讨论下（不确定是否已经有相关的讨论）

如何按比例丢弃kafka中消费的数据

Re: 如何按比例丢弃kafka中消费的数据

Re: 如何按比例丢弃kafka中消费的数据

Re: 如何按比例丢弃kafka中消费的数据

Re:Re: 如何按比例丢弃kafka中消费的数据

5 matches

Site Navigation

Mail list logo

Footer information