; >> pyflink以后应该都会集成到DataStream,所以应该不会再支持DataSet;
> >> 不建议在计算中间采用 table.to_pandas()的方式进行table和dataFrame互转,会影响计算效率;
> >> 目前采用的计算效率较好的方式,是定义pandas类型的udf/udaf方式,但相较java版接口同样的方式,pyflink还是会慢很多;
> >> 个人感觉,pyflink耗时较多的地方,还是sql_query的操作,相同sql语句,执行效率上较java差别
个人使用感觉,若存在问题,欢迎路过大佬批评指正~
>> 还有,因为调研相同领域,希望能交流调研新发现,感谢~祝好~
>>
>>
>>
>>
>> xiao...@ysstech.com
>>
>> 发件人: qian he
>> 发送时间: 2021-03-14 18:59
>> 收件人: user-zh-flink
>> 主题: pyflink使用的一些疑问
>> 你好,
>>
>>
>> 最近项目想使用
方式,但相较java版接口同样的方式,pyflink还是会慢很多;
> 个人感觉,pyflink耗时较多的地方,还是sql_query的操作,相同sql语句,执行效率上较java差别还是很大的。
> 以上仅个人使用感觉,若存在问题,欢迎路过大佬批评指正~
> 还有,因为调研相同领域,希望能交流调研新发现,感谢~祝好~
>
>
>
>
> xiao...@ysstech.com
>
> 发件人: qian he
> 发送时间: 2021-03-14 18:59
> 收件人: user-zh-flink
上较java差别还是很大的。
以上仅个人使用感觉,若存在问题,欢迎路过大佬批评指正~
还有,因为调研相同领域,希望能交流调研新发现,感谢~祝好~
xiao...@ysstech.com
发件人: qian he
发送时间: 2021-03-14 18:59
收件人: user-zh-flink
主题: pyflink使用的一些疑问
你好,
最近项目想使用flink进行分布式计算,之前项目是Python的pandas项目,想尝试用pyflink进行项目改造,在使用dataset做批处理时,对于Java的版本没有相关map
reduce函数,所以有以下疑问:
1
你好,
最近项目想使用flink进行分布式计算,之前项目是Python的pandas项目,想尝试用pyflink进行项目改造,在使用dataset做批处理时,对于Java的版本没有相关map
reduce函数,所以有以下疑问:
1.Python flink的SDK还没支持dataset吗?
2.是不是有其他替代方法?
3.如果还没支持,有计划支持的时间吗?
4.flink table为啥不支持map reduce操作?
5.我们项目使用dataframe来处理数据,能放到flink上做分布式运算吗?dataframe直接转化为table的方式,table不支持map
reduce操作,对应