Hi 秦寒,
Dian 说得很完善了。除此之外,金竹的博客[1]有介绍“Python API 中如何使用 Kafka”,可能对你有帮助,可以看下。
Best, Hequn
[1]
https://enjoyment.cool/2019/08/28/Apache%20Flink%20%E8%AF%B4%E9%81%93%E7%B3%BB%E5%88%97-%20Python%20API%20%E4%B8%AD%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8%20Kafka/
On Thu, Apr 9, 2020 at 9:34 AM Dian Fu
你指的是Python Table API中如何使用kafka connector的例子吗?这个是有例子的[1]。
关于如何把kafka client的jar包配置到Python环境,分两种情况,当前有对应的两种解决方案:
1)如果是local运行,需要把kafka client的jar拷贝到python环境中pyflink的lib目录下
2)如果是remote运行,可以通过CLI的-j选项添加。
这两种方式对于Python用户来说可能都不太便捷,所以已有一个JIRA[3]在考虑添加另外一种对Python用户来说更友好的方式,欢迎到JIRA里参与讨论。
[1]
hi, 秦寒
暂时还没有 Python 这块的 API,可以去社区 JIRA 提建议
Best
zhisheng
秦寒 于2020年4月8日周三 下午4:10写道:
> 您好
>
>Flink的 kafka connector 文档中只有java 和scala的列子,能否添加python
> 调用kafka的列子,包括如何添加kafka connector,kafka client的jar包配置到pyhon
> 环境等,谢谢。
>
>
>
>
hi, guanyq
正常来说任务运行的异常日志可以在 flink ui 中的 taskmanager 日志中查看,如果作业挂了或者被 kill 之后的话 ui
上是看不到日志了,但是可以在 yarn 上面找到该 container,查看该 jobmanager 的日志。
更好的做法是使用一些 log agent(比如 filebeat) 统一采集作业的日志,然后收集到 ElasticSearch
中,这样就可以查看历史的所有作业日志了
Best!
zhisheng
guanyq 于2020年4月8日周三 下午3:12写道:
> 您好:
>
>
>
>
> Run a
您好
Flink的 kafka connector 文档中只有java 和scala的列子,能否添加python
调用kafka的列子,包括如何添加kafka connector,kafka client的jar包配置到pyhon
环境等,谢谢。
您好:
Run a single Flink job on YARN模式下,
flink生产日志一般如何配置,及使用才能监控到任务运行是的异常和异常日志的。
大家好:
请问,对一个DataStream重复声明watermark,前面的watermark会被覆盖掉吗?
比如我再source端声明了watermark,进行了一系列操作后,我觉得watermark的延迟不满足需求,就再次声明一次。
另外,稍微咨询下另外一个问题,两个流join之后,watermark会消失吗?看书上说的是,以两个流最小的watermark(全局最小)为准。
主要是在阿里云Blink上,使用sql进行join后,说的是时间属性字段会消失。有点不明白。