如何按比例丢弃kafka中消费的数据

2022-02-25 Thread jack zhang
1、flink程序资源有限,kafka中数据比较多,想要按一定比例丢弃数据(或者其它策略),减轻flink 程序压力,有什么方法吗?


Re: 如何按比例丢弃kafka中消费的数据

2022-02-27 Thread 18703416...@163.com
自定义 kafkasource 的 DeserializationSchema
丢弃的返回 null, source 的下一个filter 算子进行过滤即可

> 2022年2月26日 上午9:01,jack zhang  写道:
> 
> 1、flink程序资源有限,kafka中数据比较多,想要按一定比例丢弃数据(或者其它策略),减轻flink 程序压力,有什么方法吗?



Re: 如何按比例丢弃kafka中消费的数据

2022-02-27 Thread 张昊 陈
你好,使用 DataStream API 的话你可以在读入数据后紧接着用 filter 方法根据一定策略过滤掉一部分数据再进行业务处理即可。

Best,
Zhanghao Chen

From: jack zhang 
Sent: Saturday, February 26, 2022 9:01
To: user-zh@flink.apache.org 
Subject: 如何按比例丢弃kafka中消费的数据

1、flink程序资源有限,kafka中数据比较多,想要按一定比例丢弃数据(或者其它策略),减轻flink 程序压力,有什么方法吗?


Re: 如何按比例丢弃kafka中消费的数据

2022-03-12 Thread 史延朋
另外,如果只是某些时刻数据比较多,实现connector侧的限流会不会好一些,另外是否可以考虑建一个关于connector侧限流相关的issue讨论下(不确定是否已经有相关的讨论)


Re:Re: 如何按比例丢弃kafka中消费的数据

2022-03-12 Thread chenkaibit



我们搞过一个 connector,在消费的 kafka 数据积压(流量高峰)的时候丢弃某个时间或某个 offset 
之前的数据,尽量消费比较新的数据;不同的丢弃策略有不同的方案,像这种比较定制化的场景可能得自己实现了




--

Best, yuchuan





在 2022-03-12 17:45:59,"史延朋"  写道:
>另外,如果只是某些时刻数据比较多,实现connector侧的限流会不会好一些,另外是否可以考虑建一个关于connector侧限流相关的issue讨论下(不确定是否已经有相关的讨论)