Re: flink1.12 执行sql_query()，同样的数据源表，pyflink执行时间9min，java执行3s

Xingbo Huang Sun, 28 Feb 2021 17:55:45 -0800

Hi,

差别在于你用了to_pandas()，这个性能慢（这个需要把数据都collect回来到客户端，然后构造一个python的DataFrame，所以慢）。to_pandas一般都是拿来调试用的，很方便，但是性能不行，如果你对性能有要求，你换个sink就行了。


Best
Xingbo

xiaoyue <18242988...@163.com> 于2021年2月26日周五 下午12:38写道：

> 不知道大家有没有遇到这个问题，流环境中链接Mysql数据库，利用DDL定义两个数据源表 source1, source2.
>  sql = "SELECT ID, NAME, IP, PHONE FROM source1 JOIN source2 ON source1.ID
> = source2.ID WHERE ID = '123456'  AND DATE BETWEEN '20160701' AND
> '20170307'"
> # 获取Query结果
>     query_table = env.sql_query(sql)
>     query_table.to_pandas()
> 相同的处理过程，python和java的处理速度差很多，请问什么原因导致的呢？
> 由于python只是封装了一下flink的接口，所以会是GIL的影响么？
> 蹲一个大佬的解答？也欢迎遇到同样问题的小伙伴讨论，thx !
>
>

Re: flink1.12 执行sql_query()，同样的数据源表，pyflink执行时间9min，java执行3s

Reply via email to