感觉是tm gc太久导致的
Weihua Hu 于2022年11月2日周三 19:47写道:
> Hi,
> 这种情况一般是这两个 TaskManager 出现故障断开连接了。可以再查看下之前的日志验证下。
>
> Best,
> Weihua
>
>
> On Wed, Nov 2, 2022 at 9:41 AM casel.chen wrote:
>
> > 今天线上 Flink 1.13.2 作业遇到如下报错,请问是何原因,要如何解决?
> > 作业内容是从kafka topic消费canal json数据写到另一个mysql库表
> >
> >
> >
大家好,
我们 (阿里云Flink团队) 最近开源了FeatHub,一个基于Flink来完成实时特征工程的特征工程平台 (feature
store)。我们希望这个项目极大简化和支持大家基于Flink来完成特征的定义,部署,监控 etc.
目前项目已经在https://github.com/alibaba/feathub 开源。github页面中有更多的信息。
https://github.com/flink-extended/feathub-examples提供了更多的代码样例。并且我们将在今年11月的Flink
Forward Asia
配置了prometheus收集flink sql作业指标,现在想根据这些指标动态设置一些告警规则,请问要如何实现?
查了下prometheus告警需要配置alert rule之后重启才生效,有没有办法不重启呢?常规实现方案是什么?
Hi junjie,
一个slot可以看作JVM中的一个线程[1],因此可以设置taskmanager.numberOfTaskSlots超过cpu core的数目。
> 这样设置slot是vcore的几倍会有什么影响吗?
设置slot是vcore的几倍可能导致资源bound(如cpu、内存、磁盘、网络带宽等),我曾经遇到过slot数目过多(每个slot上的subtask的状态较大)引起的磁盘不足问题。
[1]
flink-oss-fs-hadoop-1.13.6.jar 这个 jar 需要放到 flink 的 lib 目录下
Best,
Lijie
highfei2011 于2022年11月1日周二 16:23写道:
> 包冲突了。
>
>
> 在 2022年11月1日 15:39,highfei2011 写道:
>
>
> flink 版本:apache flink 1.13.6 flink operator 版本: 1.2.0
> 提交命令:kubernetes-jobmanager.sh kubernetes-application 异常: Caused by:
>
各个chunk 边拉取, 边emit到下游
郑 致远 于2022年11月4日周五 15:27写道:
> 请教大佬, flink cdc 全量拉取阶段, 会等所有的chunk 都拉取成功后, 才output到下游吗?
>
> 还是说 各个chunk 边拉取, 边emit到下游?
>