十分感谢Yu Li老师的提醒,原邮件中第5个文档连接(即《10GiB TPCDS数据集测试结果》)已经更新至Google Docs [1]。
[1]
https://docs.google.com/spreadsheets/d/1nietTOrFg93p7k7L82lGPlUjwCpw97bWfP21xI_MLcE/edit?usp=sharing
Best,
Zhilong Hong
On Fri, May 6, 2022 at 4:51 PM Yu Li wrote:
> 感谢大家的分享和分析,也期待Flink在相关方向的持续优化!
>
> Let's make Flink
谢谢 Yu Li 老师提醒,
我彻底开放了测试表格,和资源配置文档。
《TPC-DS各引擎耗时》
https://www.yuque.com/deadwind/notes/tpcds-benchmark-table
《TPC-DS资源配置》
https://www.yuque.com/deadwind/notes/tpcds-resource
Best,
LuNing Wang.
感谢大家的分享和分析,也期待Flink在相关方向的持续优化!
Let's make Flink great together. :-)
btw, 第5个引用的语雀文档链接已过期,建议使用google doc并更新一下链接
Best Regards,
Yu
On Sun, 1 May 2022 at 21:57, Zhilong Hong wrote:
> Hello,
>
> 这段时间我们针对 LuNing 反馈的问题进行了深入的分析调研,在此将结论同步给社区。特别感谢 LuNing 反馈这一问题并与我们一起进行分析排查。
>
> 根据我们的分析,造成 Flink 1.14
Hello,
这段时间我们针对 LuNing 反馈的问题进行了深入的分析调研,在此将结论同步给社区。特别感谢 LuNing 反馈这一问题并与我们一起进行分析排查。
根据我们的分析,造成 Flink 1.14 在 TPCDS 10G 数据集、2 节点集群规模的情况下,与 Trino 359
性能差距较大的原因主要包括以下 3 点:
1. 使用 SQL Client 提交 Flink 作业的耗时较长(单 query 约需要 4s)。在需要频繁提交作业的 OLAP
场景下,我们建议使用 Flink SQL Gateway 提交作业,避免重复创建 Client
https://www.yuque.com/docs/share/8625d14b-d465-48a3-8dc1-0be32b138f34?#lUX6
《tpcds-各引擎耗时》
链接有效期至 2022-04-22 10:31:05
LuNing Wong 于2022年4月18日周一 09:44写道:
> 补充,用的Hive 3.1.2 Hadoop 3.1.0做的数据源。
>
> LuNing Wong 于2022年4月18日周一 09:42写道:
>
> > Flink版本是1.14.4,
补充,用的Hive 3.1.2 Hadoop 3.1.0做的数据源。
LuNing Wong 于2022年4月18日周一 09:42写道:
> Flink版本是1.14.4, Trino是359版本,tm.memory.process.size和CPU资源我都和Trino对齐了。都是32G
> 16核 16线程,2台计算节点。
>
> Zhilong Hong 于2022年4月15日周五 18:21写道:
>
>> Hello, Luning!
>>
>>
>>
Flink版本是1.14.4, Trino是359版本,tm.memory.process.size和CPU资源我都和Trino对齐了。都是32G
16核 16线程,2台计算节点。
Zhilong Hong 于2022年4月15日周五 18:21写道:
> Hello, Luning!
>
>
>
Hello, Luning!
我们目前也正在关注Flink在OLAP场景的性能表现,请问你测试的Flink和Trino版本分别是什么呢?另外我看到flink-sql-benchmark中所使用的集群配置和你的不太一样,可能需要根据集群资源对flink-conf.yaml中taskmanager.memory.process.size等资源配置进行调整。
Best,
Zhilong
On Fri, Apr 15, 2022 at 2:38 PM LuNing Wang wrote:
> 跑了100个 TPC-DS SQL
> 10 GB
跑了100个 TPC-DS SQL
10 GB 数据、2个Worker(TM)、每个32G内存,16个核心。
Flink平均用时 18秒
Trino平均用时 7秒
我看字节跳动和阿里的老师测试,Flink和presto OLAP性能接近,但是我测的差距很大。想进一步和老师交流下,是不是我Flink设置的有问题。
我基本上是按照下面这个项目里模板配置的Flink相关参数。
https://github.com/ververica/flink-sql-benchmark
LuNing Wang 于2022年4月15日周五 14:34写道:
> 跑了100个SQL
>
跑了100个SQL
10 matches
Mail list logo