flink k8s operator chk config interval bug.inoperative

2024-03-14 文章 kcz
kcz 573693...@qq.com  

Re: flink k8s 部署启动报错

2023-03-13 文章 Weihua Hu
- 回复的原邮件 > | 发件人 | Weihua Hu | > | 发送日期 | 2023年3月14日 10:39 | > | 收件人 | | > | 主题 | Re: flink k8s 部署启动报错 | > Hi, > > 看异常信息是 Flink 集群在启动时检索到 HA 路径上存在 DirtyResults 数据,但是数据已经不完整了,无法正常读取。 > 可以参考文档[1],检查相关的 HA 路径,清理下异常数据 > > 另外问一下,之前是通过同名的 cluster-id 启动过 Flink 集群吗? > &

回复: flink k8s 部署启动报错

2023-03-13 文章 Jason_H
您好, 我找到了我的ha目录,请教一下,怎么确定哪些数据是脏数据,可以允许删除的,这个有什么办法可以确定吗,我看到的都是些系统数据 | | Jason_H | | hyb_he...@163.com | 回复的原邮件 | 发件人 | Weihua Hu | | 发送日期 | 2023年3月14日 10:39 | | 收件人 | | | 主题 | Re: flink k8s 部署启动报错 | Hi, 看异常信息是 Flink 集群在启动时检索到 HA 路径上存在 DirtyResults 数据,但是数据已经不完整了,无法正常读取。 可以参考文档[1],检查相关的

回复: flink k8s 部署启动报错

2023-03-13 文章 Jason_H
您好, 对的,之前是正常启动的,突然失败了,然后我直接重启pod,就一直报这个错了。 | | Jason_H | | hyb_he...@163.com | 回复的原邮件 | 发件人 | Weihua Hu | | 发送日期 | 2023年3月14日 10:39 | | 收件人 | | | 主题 | Re: flink k8s 部署启动报错 | Hi, 看异常信息是 Flink 集群在启动时检索到 HA 路径上存在 DirtyResults 数据,但是数据已经不完整了,无法正常读取。 可以参考文档[1],检查相关的 HA 路径,清理下异常数据 另外问一下,之前

Re: flink k8s 部署启动报错

2023-03-13 文章 Weihua Hu
Hi, 看异常信息是 Flink 集群在启动时检索到 HA 路径上存在 DirtyResults 数据,但是数据已经不完整了,无法正常读取。 可以参考文档[1],检查相关的 HA 路径,清理下异常数据 另外问一下,之前是通过同名的 cluster-id 启动过 Flink 集群吗? [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#job-result-store-storage-path Best, Weihua On Tue, Mar 14, 2023 at 9:5

flink k8s 部署启动报错

2023-03-13 文章 Jason_H
hi,大家好 请教一个问题,我在k8s上部署的flink集群,启动不来,报如下的错误,大家有遇到过吗 java.util.concurrent.CompletionException: org.apache.flink.util.FlinkRuntimeException: Could not retrieve JobResults of globally-terminated jobs from JobResultStore at java.util.concurrent.CompletableFuture.encodeThrowable(Unknown Source

Re: Flink k8s operator高可用部署Flink Session Cluster,提交job遇到异常。

2022-10-31 文章 汪赟
gt; 也许你可以创建一个 jira issue 来跟进这个问题 > > Best, > Weihua > > >> On Thu, Oct 27, 2022 at 6:51 PM Young Chen wrote: >> >> 【问题描述】 >> >> Flink k8s operator(v1.1.0)高可用部署了一个Flink Session Cluster(两个JobManager), >> 然后用SessionJob 部署一个例子job,job

Re: Flink k8s operator高可用部署Flink Session Cluster,提交job遇到异常。

2022-10-27 文章 Weihua Hu
: > 【问题描述】 > > Flink k8s operator(v1.1.0)高可用部署了一个Flink Session Cluster(两个JobManager), > 然后用SessionJob 部署一个例子job,job有时可以部署,有时部署不了。 > > 可以看到容器中如下error日志。 > > > > 【操作步骤】 > > 部署Cluster > > > > apiVersion: flink.apache.org/v1beta1 > > kind: Flink

Flink k8s operator高可用部署Flink Session Cluster,提交job遇到异常。

2022-10-27 文章 Young Chen
【问题描述】 Flink k8s operator(v1.1.0)高可用部署了一个Flink Session Cluster(两个JobManager), 然后用SessionJob 部署一个例子job,job有时可以部署,有时部署不了。 可以看到容器中如下error日志。 【操作步骤】 部署Cluster apiVersion: flink.apache.org/v1beta1 kind: FlinkDeployment metadata: name: flink-cluster-1jm-checkpoint spec: image: flink

Re: batch job 结束时, flink-k8s-operator crd 状态展示不清晰

2022-10-25 文章 Yang Wang
10月25日(星期二) 下午3:33 > 收件人: "user-zh" > 主题: batch job 结束时, flink-k8s-operator crd 状态展示不清晰 > > > > hi, > 我在使用flink-k8s-operator 部署batch job。 我发现当batch job 结束之后, > flink-k8s-operator  的 FlinkDeployment CRD 状态发生了变化: > jobManagerDeploymentStatus 变成了"missing&quo

batch job 结束时, flink-k8s-operator crd 状态展示不清晰

2022-10-25 文章 Liting Liu (litiliu)
hi, 我在使用flink-k8s-operator 部署batch job。 我发现当batch job 结束之后, flink-k8s-operator 的 FlinkDeployment CRD 状态发生了变化: jobManagerDeploymentStatus 变成了"missing", "error" 变成了“Missing JobManager deployment”。 我想这个应该是batch job执行完毕之后,native-k8s 自动将JobmanagerDeployment 删除导致的。 请问该如何通过判断C

Re: 怎样禁用 flink k8s operator 自动删除停止后的 pod ?

2022-10-19 文章 Biao Geng
Hi, 能请问下你使用的flink版本和flink kubernetes operator版本吗? 如果flink版本>=1.15.0的话,app运行结束后JobManager Pod应该是会保留的。 Best, Biao Geng highfei2011 于2022年10月19日周三 14:11写道: > 问题描述:当使用 flink k8s operator 创建 flink app 后,不管 app 运行成功,或者失败, operator 都会自动 > delete 掉停止的 pod。我再次使用命令查看日志时, 由于 pod 不存在,所以日志无法查看。

Re: flink-k8s-operator中webhook的作用

2022-07-27 文章 Yang Wang
Webhook主要的作用是做CR的校验,避免提交到K8s上之后才发现 例如:parallelism被错误的设置为负值,jarURI没有设置等 Best, Yang Kyle Zhang 于2022年7月27日周三 18:59写道: > Hi,all > 最近在看flink-k8s-operator[1],架构里有一个flink-webhook,请问这个container的作用是什么,如果配置 > webhook.create=false对整体功能有什么影响? > > Best regards > > [1] > > h

flink-k8s-operator中webhook的作用

2022-07-27 文章 Kyle Zhang
Hi,all 最近在看flink-k8s-operator[1],架构里有一个flink-webhook,请问这个container的作用是什么,如果配置 webhook.create=false对整体功能有什么影响? Best regards [1] https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-release-1.1/docs/concepts/architecture/

Re: Flink k8s 作业提交流程

2022-06-27 文章 Lijie Wang
Hi, 使用文档可以查看: https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/resource-providers/native_kubernetes 设计文档可以查看: https://docs.google.com/document/d/1-jNzqGF6NfZuwVaFICoFQ5HFFXzF5NVIagUZByFMfBY/edit?usp=sharing jira: https://issues.apache.org/jira/browse/FLINK-9953 Best, Lijie hj

Flink k8s ????????????

2022-06-27 文章 hjw
Flink version:1.15.0 ??1.15.0Flink??native k8s?Flink on Native k8s ??:)  

Re:Re: Flink k8s HA 手动删除作业deployment导致的异常

2022-06-13 文章 m18814122325
的HA数据泄露 > >[1]. >https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/deployment/ha/kubernetes_ha/#high-availability-data-clean-up > > >Best, >Yang > >Zhanghao Chen 于2022年6月13日周一 07:53写道: > >> 1.基于K8S做HA的Flink任务要想正常,不能手动删除作业deployment,必须通过cancel,stop命令进行停止。基于上面我

Re: Flink k8s HA 手动删除作业deployment导致的异常

2022-06-12 文章 Yang Wang
-availability-data-clean-up Best, Yang Zhanghao Chen 于2022年6月13日周一 07:53写道: > 1.基于K8S做HA的Flink任务要想正常,不能手动删除作业deployment,必须通过cancel,stop命令进行停止。基于上面我猜测Flink > k8s HA是基于ConfigMap之上开发的,其声明周期从K8S角度不能像作业的svc一样带ownerreference。 > > 是的,Flink K8s HA 是基于 ConfigMap 开发的,并且 HA configmap 没有设置 > o

Re: Flink k8s HA 手动删除作业deployment导致的异常

2022-06-12 文章 Zhanghao Chen
1.基于K8S做HA的Flink任务要想正常,不能手动删除作业deployment,必须通过cancel,stop命令进行停止。基于上面我猜测Flink k8s HA是基于ConfigMap之上开发的,其声明周期从K8S角度不能像作业的svc一样带ownerreference。 是的,Flink K8s HA 是基于 ConfigMap 开发的,并且 HA configmap 没有设置 ownerreference,因此如果想在保留 HA 数据的情况下重启集群直接 delete deployment 就行,重启后会从最新 cp 恢复。 2.基于k8s做HA的Flink job id

Flink k8s HA 手动删除作业deployment导致的异常

2022-06-12 文章 m18814122325
-sql-application-job-cluster-config-map 1 13m 我有以下疑问: 1.基于K8S做HA的Flink任务要想正常,不能手动删除作业deployment,必须通过cancel,stop命令进行停止。基于上面我猜测Flink k8s HA是基于ConfigMap之上开发的,其声明周期从K8S角度不能像作业的svc一样带ownerreference。 2.基于k8s做HA的Flink job id皆为

Re:Re: flink k8s ha

2022-06-08 文章 json
恩,明白保留HA配置的意义了但感觉是不是有bug,看我的问题,重启报找不到 /high-availability.storageDir/task/completedCheckpointe5c125ad20ea 文件但oss上的HA目录只有 /high-availability.storageDir/task/completedCheckpointacdfb4309903既HA的configmap 信息和 high-availability.storageDir 目录里的文件不一致了 在 2022-06-08 23:06:03,"Weihua Hu" 写道: >Hi, >删除 dep

Re: flink k8s ha

2022-06-08 文章 Weihua Hu
Hi, 删除 deployment 会将关联到这个 Deployment 的 Pod、Service、flink-conf configmap 等删除。但是 HA 相关的 configmap 没有配置 owner reference,是不会被删除的。主要目的是集群重启时可以从之前的HA 状态中恢复。更多内容参考官方文档[1] [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/ha/kubernetes_ha/#high-availability-data-clean-up Best, Weihu

flink k8s ha

2022-06-08 文章 json
flink1.13.6 on k8s application 模式,设置HA high-availability: org.apache.flink.kubernetes.highavailability.KubernetesHaServicesFactory high-availability.storageDir: oss 会在 k8s 上生成configmap 1. 但在 k8s 删除此任务的 deployment 后,为什么这些configmap还在?(任务都删了,这些ha应该不需要了吧) 2. 任务重新启动后,还是会去这些 configmap 读ha配置,这个逻辑也很奇怪,

flink ????????k8s????????jar??????????

2022-04-25 文章 ????????
flink??kubernetes session ??jarjar??flink/libjarjar??flink/lib??,?

flink ????????k8s????????jar??????????

2022-04-25 文章 ????????
flink??kubernetes session jar ??!

回复:flink k8s部署使用s3做HA问题

2021-07-27 文章 johnjlong
Caused by: java.lang.ClassNotFoundException: com.amazonaws.services.s3.model.AmazonS3Exception | | johnjlong | | johnjl...@163.com | 签名由网易邮箱大师定制 在2021年7月27日 15:18,maker_d...@foxmail.com 写道: 各位开发者: 大家好! 我在使用flink native Kubernetes方式部署,使用minio做文件系统,配置如下: state.backend: filesystem fs.allowed-fallb

flink k8s部署使用s3做HA问题

2021-07-27 文章 maker_d...@foxmail.com
各位开发者: 大家好! 我在使用flink native Kubernetes方式部署,使用minio做文件系统,配置如下: state.backend: filesystem fs.allowed-fallback-filesystems: s3 s3.endpoint: http://172.16.14.40:9000 s3.path-style: true s3.access-key: admin s3.secret-key: admin123 contai

Re: flink k8s高可用如何使用oss作为high-availability.storageDir?

2021-02-17 文章 Yang Wang
使用社区官方镜像flink:1.12.1,你需要配置如下参数 最后两个参数是通过环境变量的方式来enable oss的plugin high-availability.storageDir: oss://flink/flink-ha fs.oss.endpoint: fs.oss.accessKeyId: fs.oss.accessKeySecret: containerized.master.env.ENABLE_BUILT_IN_PLUGINS: flink-oss-fs-hadoop-1.12.1.jar containerized.taskmanage

flink k8s高可用如何使用oss作为high-availability.storageDir?

2021-02-17 文章 casel.chen
如题,在k8s环境下不想使用hdfs作为high-availability.storageDir,有没有办法直接使用oss呢?checkpoint和savepoint已经能够使用oss了。