是DS作业吗?可以share下使用state的部分吗?
On Sat, Aug 20, 2022 at 3:35 PM Jason_H wrote:
> 您好,改过任务,但是 是以新的任务启动的,改动很大,并不依赖之前老的任务
>
>
> | |
> Jason_H
> |
> |
> hyb_he...@163.com
> |
> 回复的原邮件
> | 发件人 | Michael Ran |
> | 发送日期 | 2022年8月20日 15:31 |
> | 收件人 | tsreape...@gmail.com |
> | 主题 | 回复:flink自动重启出错
如题,pyflink场景的任务,内存是如何管理呢。
python部分的内存是否算入flink TaskManager配置的内存中呢?
比如python算子通过多进程做各种复杂的运算,这部分内存占用是否算入flink呢?
——
如果不算的话,使用pyflink时,容器内存和flink TaskManager内存配置是不是需要预留空间?
masters:
A:8682
workers:
A
B
C
都是内网hostname(相互都可解析),非127.0.0.1。
flink版本:1.15.1版本。
Weihua Hu 于2022年8月24日周三 10:26写道:
>
> PartitionNotFoundException 应该是跟描述的有一台 TM ip 是 127.0.0.1 有关,其他 TM 节点链接不到这个节点。
>
> 用的什么版本呢?
>
> 配置文件是这样的吗?
> master 文件中有一个 内网 IP: A
> workers 文件中有多个内网 IP: A,B,C
>
> Best,
> Weihu
PartitionNotFoundException 应该是跟描述的有一台 TM ip 是 127.0.0.1 有关,其他 TM 节点链接不到这个节点。
用的什么版本呢?
配置文件是这样的吗?
master 文件中有一个 内网 IP: A
workers 文件中有多个内网 IP: A,B,C
Best,
Weihua
On Tue, Aug 23, 2022 at 7:37 PM yidan zhao wrote:
>
> 如题,目前发现任务报错是:org.apache.flink.runtime.io.network.partition.PartitionNotFoundEx
Kafka
Connector??Api??IDEAJira
https://issues.apache.org/jira/browse/FLINK-28758
-- --
??:
1 大概率是source部分问题,或者 savepoint 的 trigger 层面。
2 也可以从 cancel 和 stop 的区别上考虑下?
3 补充信息:我的kafka source是用的旧版本(没办法用新版本,原因是由于一些原因我必须用 kafka 低版本 client)。
yidan zhao 于2022年8月23日周二 23:06写道:
>
> 看了下,报错很少。
> 反正 flink cancel -s 是可以的,flink stop 就不行。而且目测是瞬间失败。从web
> ui来看,整个savepoint的完成是0/841,应该是几乎没开始就出错了。
> 目前4台机器
看了下,报错很少。
反正 flink cancel -s 是可以的,flink stop 就不行。而且目测是瞬间失败。从web
ui来看,整个savepoint的完成是0/841,应该是几乎没开始就出错了。
目前4台机器:
机器1
2022-08-23 22:47:37,093 WARN
org.apache.flink.runtime.taskmanager.Task[] -
Source: JobConfig -> Split(JobName_configType)
(1/1)#0 (b5076938b231fb9d33e582104292ebd
Hi,看起来是部分依赖还是用的旧版本,可以先确保下flink作业的代码、connector、部署的环境三者都升级到了相同的版本
--
Best!
Xuyang
Hi,看起来是部分依赖还是用的旧版本,可以先确保下flink作业的代码、connector、部署的环境三者都升级到了相同的版本
在 2022-08-23 10:43:55,"杨扬" 写道:
各位好!
最近将flink版本升级至1.14.2后作业无法启动,报错如图所示。
之前使用1.12.0版本一切正常,升级前后代码本身未做过任何修改。
使用flink on yarn部署方式,applicat
Hi, TM上有报错信息嘛?有的话可以贴出来看一下是什么导致cp失败的
--
Best!
Xuyang
Hi, TM上有报错信息嘛?有的话可以贴出来看一下是什么导致cp失败的
在 2022-08-23 20:41:59,"yidan zhao" 写道:
>补充部分信息:
>看日志,如果是 flink savepoint xxx 这样触发检查点,JM的日志很简单:
>2022-08-23 20:33:22,307 INFO
>org.apache.flink.runtime.jobmaster.JobMaster []
补充部分信息:
看日志,如果是 flink savepoint xxx 这样触发检查点,JM的日志很简单:
2022-08-23 20:33:22,307 INFO
org.apache.flink.runtime.jobmaster.JobMaster [] -
Triggering savepoint for job 8d231de75b8227a1b
715b1aa665caa91.
2022-08-23 20:33:22,318 INFO
org.apache.flink.runtime.checkpoint.CheckpointCoordinato
如题,stop,停止并保存检查点失败。
测试看 cancel、cancel -s 方式都成功。 cancel -s 可成功生成检查点并退出。
stop则不行,报错主要是
Could not stop with a savepoint job "1b87f308e2582f3cc0e3ccc812471201"
...
Caused by: java.util.concurrent.ExecutionException:
java.util.concurrent.CompletionException:
org.apache.flink.runtime.checkpoint.Checkpoi
如题,目前发现任务报错是:org.apache.flink.runtime.io.network.partition.PartitionNotFoundException:
Partition c74a0a104d81bf2d38f76f104d65a2ab#27@7e1a8495f062f8ceb964a3205e584613
not found
——
任务本身问题不大,也不是网络问题。 目前发现解决方法:
换成非单 JM 即可。
同时也发现一个可能原因,或另一个明显现象:
从web ui的Taskmanager界面可以发现,执行 start-cluster 脚本的
12 matches
Mail list logo