Re: flink 1.15

2022-04-02 文章 Zhanghao Chen
不是的哈。MVP 是 Minimum Viable Product (最简可行产品)的缩写,代表一个只实现了核心功能,听取早期用户反馈来后续进一步完善的版本。 Best, Zhanghao Chen From: guanyq Sent: Saturday, April 2, 2022 14:56 To: user-zh@flink.apache.org Subject: flink 1.15 看了FFA的分享(流批一体) Flink1.15版本推出 MVP版本,动态表存储的流批一体 请问MVP版本是收费版么?

Re: RocksDB 读 cpu 100% 如何调优

2022-04-02 文章 Yun Tang
Hi, 200GB 这么大规模的单机state,其实没有什么很好的优化途径了,因为这个时候基本就得落盘,比拼的就是操作系统的page cache和磁盘的IO能力。 祝好 唐云 From: Guo Thompson Sent: Tuesday, March 29, 2022 20:27 To: user-zh Subject: Re: RocksDB 读 cpu 100% 如何调优 如果rocksDB的状态很大呢?例如:200G,这种开了火焰图经常发现瓶颈也是在rocksDB的get(),这种有优化思路么? Yun

Re: Re: flink jdbc source oom

2022-04-02 文章 r pp
我觉得 流处理中,无论是一个一个处理,还是一批一批处理,强调了 连续性,自定义sql 在连续性的保证上,想到的比较好的方式是自增 id 的方式(这就意味着只接受 insert 操作),而在一批数据中 排序、去重,其实对于整体而言 收效不好说, 除非 每一批数据都严格的分区(如不同日期),不过过滤是有好处的。 Michael Ran 于2022年4月1日周五 11:00写道: > 这个当初提过自定义SQL 数据集,但是社区否定了这种做法- -,但是从功能上来说,我们也是实现的自定义SQL结果集,进行join > 之类的操作,在大数据集,以及一些数据排序、剔除重复等场景有一定优势 > 在

Re: Re: flink jdbc source oom

2022-04-02 文章 r pp
我觉得 流处理中,无论是一个一个处理,还是一批一批处理,强调了 连续性,自定义sql 在连续性的保证上,想到的比较好的方式是自增 id 的方式(这就意味着只接受 insert 操作),而在一批数据中 排序、去重,其实对于整体而言 收效不好说, 除非 每一批数据都严格的分区(如不同日期),不过过滤是有好处的。 Michael Ran 于2022年4月1日周五 11:00写道: > 这个当初提过自定义SQL 数据集,但是社区否定了这种做法- -,但是从功能上来说,我们也是实现的自定义SQL结果集,进行join > 之类的操作,在大数据集,以及一些数据排序、剔除重复等场景有一定优势 > 在