Re: Flink OLAP 与 Trino TPC-DS 对比

2022-05-08 文章 Zhilong Hong
十分感谢Yu Li老师的提醒,原邮件中第5个文档连接(即《10GiB TPCDS数据集测试结果》)已经更新至Google Docs [1]。 [1] https://docs.google.com/spreadsheets/d/1nietTOrFg93p7k7L82lGPlUjwCpw97bWfP21xI_MLcE/edit?usp=sharing Best, Zhilong Hong On Fri, May 6, 2022 at 4:51 PM Yu Li wrote: > 感谢大家的分享和分析,也期待Flink在相关方向的持续优化! > > Let's make Flink

Re: Flink OLAP 与 Trino TPC-DS 对比

2022-05-06 文章 LuNing Wang
谢谢 Yu Li 老师提醒, 我彻底开放了测试表格,和资源配置文档。 《TPC-DS各引擎耗时》 https://www.yuque.com/deadwind/notes/tpcds-benchmark-table 《TPC-DS资源配置》 https://www.yuque.com/deadwind/notes/tpcds-resource Best, LuNing Wang.

Re: Flink OLAP 与 Trino TPC-DS 对比

2022-05-06 文章 Yu Li
感谢大家的分享和分析,也期待Flink在相关方向的持续优化! Let's make Flink great together. :-) btw, 第5个引用的语雀文档链接已过期,建议使用google doc并更新一下链接 Best Regards, Yu On Sun, 1 May 2022 at 21:57, Zhilong Hong wrote: > Hello, > > 这段时间我们针对 LuNing 反馈的问题进行了深入的分析调研,在此将结论同步给社区。特别感谢 LuNing 反馈这一问题并与我们一起进行分析排查。 > > 根据我们的分析,造成 Flink 1.14

Re: Flink OLAP 与 Trino TPC-DS 对比

2022-05-01 文章 Zhilong Hong
Hello, 这段时间我们针对 LuNing 反馈的问题进行了深入的分析调研,在此将结论同步给社区。特别感谢 LuNing 反馈这一问题并与我们一起进行分析排查。 根据我们的分析,造成 Flink 1.14 在 TPCDS 10G 数据集、2 节点集群规模的情况下,与 Trino 359 性能差距较大的原因主要包括以下 3 点: 1. 使用 SQL Client 提交 Flink 作业的耗时较长(单 query 约需要 4s)。在需要频繁提交作业的 OLAP 场景下,我们建议使用 Flink SQL Gateway 提交作业,避免重复创建 Client

Re: Flink OLAP 与 Trino TPC-DS 对比

2022-04-19 文章 LuNing Wang
https://www.yuque.com/docs/share/8625d14b-d465-48a3-8dc1-0be32b138f34?#lUX6 《tpcds-各引擎耗时》 链接有效期至 2022-04-22 10:31:05 LuNing Wong 于2022年4月18日周一 09:44写道: > 补充,用的Hive 3.1.2 Hadoop 3.1.0做的数据源。 > > LuNing Wong 于2022年4月18日周一 09:42写道: > > > Flink版本是1.14.4,

Re: Flink OLAP 与 Trino TPC-DS 对比

2022-04-17 文章 LuNing Wong
补充,用的Hive 3.1.2 Hadoop 3.1.0做的数据源。 LuNing Wong 于2022年4月18日周一 09:42写道: > Flink版本是1.14.4, Trino是359版本,tm.memory.process.size和CPU资源我都和Trino对齐了。都是32G > 16核 16线程,2台计算节点。 > > Zhilong Hong 于2022年4月15日周五 18:21写道: > >> Hello, Luning! >> >> >>

Re: Flink OLAP 与 Trino TPC-DS 对比

2022-04-17 文章 LuNing Wong
Flink版本是1.14.4, Trino是359版本,tm.memory.process.size和CPU资源我都和Trino对齐了。都是32G 16核 16线程,2台计算节点。 Zhilong Hong 于2022年4月15日周五 18:21写道: > Hello, Luning! > > >

Re: Flink OLAP 与 Trino TPC-DS 对比

2022-04-15 文章 Zhilong Hong
Hello, Luning! 我们目前也正在关注Flink在OLAP场景的性能表现,请问你测试的Flink和Trino版本分别是什么呢?另外我看到flink-sql-benchmark中所使用的集群配置和你的不太一样,可能需要根据集群资源对flink-conf.yaml中taskmanager.memory.process.size等资源配置进行调整。 Best, Zhilong On Fri, Apr 15, 2022 at 2:38 PM LuNing Wang wrote: > 跑了100个 TPC-DS SQL > 10 GB

Re: Flink OLAP 与 Trino TPC-DS 对比

2022-04-15 文章 LuNing Wang
跑了100个 TPC-DS SQL 10 GB 数据、2个Worker(TM)、每个32G内存,16个核心。 Flink平均用时 18秒 Trino平均用时 7秒 我看字节跳动和阿里的老师测试,Flink和presto OLAP性能接近,但是我测的差距很大。想进一步和老师交流下,是不是我Flink设置的有问题。 我基本上是按照下面这个项目里模板配置的Flink相关参数。 https://github.com/ververica/flink-sql-benchmark LuNing Wang 于2022年4月15日周五 14:34写道: > 跑了100个SQL >

Flink OLAP 与 Trino TPC-DS 对比

2022-04-15 文章 LuNing Wang
跑了100个SQL