Re: pyflink资源优化问题,请教

2021-04-05 文章 Dian Fu
处理逻辑看起来应该是没有问题的。 1)可以详细说一下,你说的数据延迟问题吗?现在的qps可以达到多少,预期是多少? 2)你现在用的哪种部署模式? 3)并发度的设置可以参考:https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev/python/table-api-users-guide/table_environment.html#configuration

回复:pyflink资源优化问题,请教

2021-04-05 文章 郭华威
hidden email 在2021年04月06日 11:36,苗红宾 写道: 你好: 业务场景是:数据源是kafka,10分钟总数据量在10G左右,里面包括200个城市的数据,期望使用滚动窗口,按城市分组,每2分钟触发一次将所有城市的过去十分钟数据放到各自的list里,然后转换成pandas,针对该城市做一次整体计算,每次每个城市的计算耗时平均在60s左右。 现在的使用方式: 1、slide_window = Slide.over(f"10.minutes").every(f"2.minutes").on('ts').alias("w") 2、使用sql语句注册kafka conn

pyflink资源优化问题,请教

2021-04-05 文章 苗红宾
你好: 业务场景是:数据源是kafka,10分钟总数据量在10G左右,里面包括200个城市的数据,期望使用滚动窗口,按城市分组,每2分钟触发一次将所有城市的过去十分钟数据放到各自的list里,然后转换成pandas,针对该城市做一次整体计算,每次每个城市的计算耗时平均在60s左右。 现在的使用方式: 1、slide_window = Slide.over(f"10.minutes").every(f"2.minutes").on('ts').alias("w") 2、使用sql语句注册kafka connector, 3、result table使用普通的print: CREATE T