kcz
573693...@qq.com
- 回复的原邮件
> | 发件人 | Weihua Hu |
> | 发送日期 | 2023年3月14日 10:39 |
> | 收件人 | |
> | 主题 | Re: flink k8s 部署启动报错 |
> Hi,
>
> 看异常信息是 Flink 集群在启动时检索到 HA 路径上存在 DirtyResults 数据,但是数据已经不完整了,无法正常读取。
> 可以参考文档[1],检查相关的 HA 路径,清理下异常数据
>
> 另外问一下,之前是通过同名的 cluster-id 启动过 Flink 集群吗?
>
&
您好,
我找到了我的ha目录,请教一下,怎么确定哪些数据是脏数据,可以允许删除的,这个有什么办法可以确定吗,我看到的都是些系统数据
| |
Jason_H
|
|
hyb_he...@163.com
|
回复的原邮件
| 发件人 | Weihua Hu |
| 发送日期 | 2023年3月14日 10:39 |
| 收件人 | |
| 主题 | Re: flink k8s 部署启动报错 |
Hi,
看异常信息是 Flink 集群在启动时检索到 HA 路径上存在 DirtyResults 数据,但是数据已经不完整了,无法正常读取。
可以参考文档[1],检查相关的
您好,
对的,之前是正常启动的,突然失败了,然后我直接重启pod,就一直报这个错了。
| |
Jason_H
|
|
hyb_he...@163.com
|
回复的原邮件
| 发件人 | Weihua Hu |
| 发送日期 | 2023年3月14日 10:39 |
| 收件人 | |
| 主题 | Re: flink k8s 部署启动报错 |
Hi,
看异常信息是 Flink 集群在启动时检索到 HA 路径上存在 DirtyResults 数据,但是数据已经不完整了,无法正常读取。
可以参考文档[1],检查相关的 HA 路径,清理下异常数据
另外问一下,之前
Hi,
看异常信息是 Flink 集群在启动时检索到 HA 路径上存在 DirtyResults 数据,但是数据已经不完整了,无法正常读取。
可以参考文档[1],检查相关的 HA 路径,清理下异常数据
另外问一下,之前是通过同名的 cluster-id 启动过 Flink 集群吗?
[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#job-result-store-storage-path
Best,
Weihua
On Tue, Mar 14, 2023 at 9:5
hi,大家好
请教一个问题,我在k8s上部署的flink集群,启动不来,报如下的错误,大家有遇到过吗
java.util.concurrent.CompletionException:
org.apache.flink.util.FlinkRuntimeException: Could not retrieve JobResults of
globally-terminated jobs from JobResultStore
at java.util.concurrent.CompletableFuture.encodeThrowable(Unknown
Source
gt; 也许你可以创建一个 jira issue 来跟进这个问题
>
> Best,
> Weihua
>
>
>> On Thu, Oct 27, 2022 at 6:51 PM Young Chen wrote:
>>
>> 【问题描述】
>>
>> Flink k8s operator(v1.1.0)高可用部署了一个Flink Session Cluster(两个JobManager),
>> 然后用SessionJob 部署一个例子job,job
:
> 【问题描述】
>
> Flink k8s operator(v1.1.0)高可用部署了一个Flink Session Cluster(两个JobManager),
> 然后用SessionJob 部署一个例子job,job有时可以部署,有时部署不了。
>
> 可以看到容器中如下error日志。
>
>
>
> 【操作步骤】
>
> 部署Cluster
>
>
>
> apiVersion: flink.apache.org/v1beta1
>
> kind: Flink
【问题描述】
Flink k8s operator(v1.1.0)高可用部署了一个Flink Session Cluster(两个JobManager),
然后用SessionJob 部署一个例子job,job有时可以部署,有时部署不了。
可以看到容器中如下error日志。
【操作步骤】
部署Cluster
apiVersion: flink.apache.org/v1beta1
kind: FlinkDeployment
metadata:
name: flink-cluster-1jm-checkpoint
spec:
image: flink
10月25日(星期二) 下午3:33
> 收件人: "user-zh"
> 主题: batch job 结束时, flink-k8s-operator crd 状态展示不清晰
>
>
>
> hi,
> 我在使用flink-k8s-operator 部署batch job。 我发现当batch job 结束之后,
> flink-k8s-operator 的 FlinkDeployment CRD 状态发生了变化:
> jobManagerDeploymentStatus 变成了"missing&quo
hi,
我在使用flink-k8s-operator 部署batch job。 我发现当batch job 结束之后, flink-k8s-operator
的 FlinkDeployment CRD 状态发生了变化: jobManagerDeploymentStatus 变成了"missing", "error"
变成了“Missing JobManager deployment”。 我想这个应该是batch job执行完毕之后,native-k8s
自动将JobmanagerDeployment 删除导致的。 请问该如何通过判断C
Hi,
能请问下你使用的flink版本和flink kubernetes operator版本吗?
如果flink版本>=1.15.0的话,app运行结束后JobManager Pod应该是会保留的。
Best,
Biao Geng
highfei2011 于2022年10月19日周三 14:11写道:
> 问题描述:当使用 flink k8s operator 创建 flink app 后,不管 app 运行成功,或者失败, operator 都会自动
> delete 掉停止的 pod。我再次使用命令查看日志时, 由于 pod 不存在,所以日志无法查看。
Webhook主要的作用是做CR的校验,避免提交到K8s上之后才发现
例如:parallelism被错误的设置为负值,jarURI没有设置等
Best,
Yang
Kyle Zhang 于2022年7月27日周三 18:59写道:
> Hi,all
> 最近在看flink-k8s-operator[1],架构里有一个flink-webhook,请问这个container的作用是什么,如果配置
> webhook.create=false对整体功能有什么影响?
>
> Best regards
>
> [1]
>
> h
Hi,all
最近在看flink-k8s-operator[1],架构里有一个flink-webhook,请问这个container的作用是什么,如果配置
webhook.create=false对整体功能有什么影响?
Best regards
[1]
https://nightlies.apache.org/flink/flink-kubernetes-operator-docs-release-1.1/docs/concepts/architecture/
Hi,
使用文档可以查看:
https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/resource-providers/native_kubernetes
设计文档可以查看:
https://docs.google.com/document/d/1-jNzqGF6NfZuwVaFICoFQ5HFFXzF5NVIagUZByFMfBY/edit?usp=sharing
jira: https://issues.apache.org/jira/browse/FLINK-9953
Best,
Lijie
hj
Flink version:1.15.0
??1.15.0Flink??native k8s?Flink on
Native k8s ??:)
的HA数据泄露
>
>[1].
>https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/deployment/ha/kubernetes_ha/#high-availability-data-clean-up
>
>
>Best,
>Yang
>
>Zhanghao Chen 于2022年6月13日周一 07:53写道:
>
>> 1.基于K8S做HA的Flink任务要想正常,不能手动删除作业deployment,必须通过cancel,stop命令进行停止。基于上面我
-availability-data-clean-up
Best,
Yang
Zhanghao Chen 于2022年6月13日周一 07:53写道:
> 1.基于K8S做HA的Flink任务要想正常,不能手动删除作业deployment,必须通过cancel,stop命令进行停止。基于上面我猜测Flink
> k8s HA是基于ConfigMap之上开发的,其声明周期从K8S角度不能像作业的svc一样带ownerreference。
>
> 是的,Flink K8s HA 是基于 ConfigMap 开发的,并且 HA configmap 没有设置
> o
1.基于K8S做HA的Flink任务要想正常,不能手动删除作业deployment,必须通过cancel,stop命令进行停止。基于上面我猜测Flink
k8s HA是基于ConfigMap之上开发的,其声明周期从K8S角度不能像作业的svc一样带ownerreference。
是的,Flink K8s HA 是基于 ConfigMap 开发的,并且 HA configmap 没有设置 ownerreference,因此如果想在保留
HA 数据的情况下重启集群直接 delete deployment 就行,重启后会从最新 cp 恢复。
2.基于k8s做HA的Flink job id
-sql-application-job-cluster-config-map
1 13m
我有以下疑问:
1.基于K8S做HA的Flink任务要想正常,不能手动删除作业deployment,必须通过cancel,stop命令进行停止。基于上面我猜测Flink
k8s HA是基于ConfigMap之上开发的,其声明周期从K8S角度不能像作业的svc一样带ownerreference。
2.基于k8s做HA的Flink job id皆为
恩,明白保留HA配置的意义了但感觉是不是有bug,看我的问题,重启报找不到
/high-availability.storageDir/task/completedCheckpointe5c125ad20ea
文件但oss上的HA目录只有
/high-availability.storageDir/task/completedCheckpointacdfb4309903既HA的configmap
信息和 high-availability.storageDir 目录里的文件不一致了
在 2022-06-08 23:06:03,"Weihua Hu" 写道:
>Hi,
>删除 dep
Hi,
删除 deployment 会将关联到这个 Deployment 的 Pod、Service、flink-conf configmap 等删除。但是
HA 相关的 configmap 没有配置 owner reference,是不会被删除的。主要目的是集群重启时可以从之前的HA
状态中恢复。更多内容参考官方文档[1]
[1]
https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/ha/kubernetes_ha/#high-availability-data-clean-up
Best,
Weihu
flink1.13.6 on k8s application 模式,设置HA
high-availability:
org.apache.flink.kubernetes.highavailability.KubernetesHaServicesFactory
high-availability.storageDir: oss
会在 k8s 上生成configmap
1. 但在 k8s 删除此任务的 deployment 后,为什么这些configmap还在?(任务都删了,这些ha应该不需要了吧)
2. 任务重新启动后,还是会去这些 configmap 读ha配置,这个逻辑也很奇怪,
flink??kubernetes session
??jarjar??flink/libjarjar??flink/lib??,?
flink??kubernetes session
jar
??!
Caused by: java.lang.ClassNotFoundException:
com.amazonaws.services.s3.model.AmazonS3Exception
| |
johnjlong
|
|
johnjl...@163.com
|
签名由网易邮箱大师定制
在2021年7月27日 15:18,maker_d...@foxmail.com 写道:
各位开发者:
大家好!
我在使用flink native Kubernetes方式部署,使用minio做文件系统,配置如下:
state.backend: filesystem
fs.allowed-fallb
各位开发者:
大家好!
我在使用flink native Kubernetes方式部署,使用minio做文件系统,配置如下:
state.backend: filesystem
fs.allowed-fallback-filesystems: s3
s3.endpoint: http://172.16.14.40:9000
s3.path-style: true
s3.access-key: admin
s3.secret-key: admin123
contai
使用社区官方镜像flink:1.12.1,你需要配置如下参数
最后两个参数是通过环境变量的方式来enable oss的plugin
high-availability.storageDir: oss://flink/flink-ha
fs.oss.endpoint:
fs.oss.accessKeyId:
fs.oss.accessKeySecret:
containerized.master.env.ENABLE_BUILT_IN_PLUGINS:
flink-oss-fs-hadoop-1.12.1.jar
containerized.taskmanage
如题,在k8s环境下不想使用hdfs作为high-availability.storageDir,有没有办法直接使用oss呢?checkpoint和savepoint已经能够使用oss了。
29 matches
Mail list logo