date:20220402

Re: flink 1.15

2022-04-02 文章 Zhanghao Chen

不是的哈。MVP 是 Minimum Viable Product （最简可行产品）的缩写，代表一个只实现了核心功能，听取早期用户反馈来后续进一步完善的版本。 Best, Zhanghao Chen From: guanyq Sent: Saturday, April 2, 2022 14:56 To: user-zh@flink.apache.org Subject: flink 1.15 看了FFA的分享(流批一体) Flink1.15版本推出 MVP版本，动态表存储的流批一体请问MVP版本是收费版么?

Re: RocksDB 读 cpu 100% 如何调优

2022-04-02 文章 Yun Tang

Hi, 200GB 这么大规模的单机state，其实没有什么很好的优化途径了，因为这个时候基本就得落盘，比拼的就是操作系统的page cache和磁盘的IO能力。祝好唐云 From: Guo Thompson Sent: Tuesday, March 29, 2022 20:27 To: user-zh Subject: Re: RocksDB 读 cpu 100% 如何调优如果rocksDB的状态很大呢？例如：200G，这种开了火焰图经常发现瓶颈也是在rocksDB的get（），这种有优化思路么？ Yun

Re: Re: flink jdbc source oom

2022-04-02 文章 r pp

我觉得流处理中，无论是一个一个处理，还是一批一批处理，强调了连续性，自定义sql 在连续性的保证上，想到的比较好的方式是自增 id 的方式（这就意味着只接受 insert 操作），而在一批数据中排序、去重，其实对于整体而言收效不好说，除非每一批数据都严格的分区(如不同日期)，不过过滤是有好处的。 Michael Ran 于2022年4月1日周五 11:00写道： > 这个当初提过自定义SQL 数据集，但是社区否定了这种做法- -，但是从功能上来说，我们也是实现的自定义SQL结果集，进行join > 之类的操作，在大数据集，以及一些数据排序、剔除重复等场景有一定优势 > 在

Re: Re: flink jdbc source oom

2022-04-02 文章 r pp

我觉得流处理中，无论是一个一个处理，还是一批一批处理，强调了连续性，自定义sql 在连续性的保证上，想到的比较好的方式是自增 id 的方式（这就意味着只接受 insert 操作），而在一批数据中排序、去重，其实对于整体而言收效不好说，除非每一批数据都严格的分区(如不同日期)，不过过滤是有好处的。 Michael Ran 于2022年4月1日周五 11:00写道： > 这个当初提过自定义SQL 数据集，但是社区否定了这种做法- -，但是从功能上来说，我们也是实现的自定义SQL结果集，进行join > 之类的操作，在大数据集，以及一些数据排序、剔除重复等场景有一定优势 > 在