这种一般是因为APIServer那边有问题导致单次的ConfigMap renew lease annotation的操作失败,Flink默认会重试的
如果你发现因为这个SocketTimeoutException原因导致了任务Failover,可以把下面两个参数调大
high-availability.kubernetes.leader-election.lease-duration: 60s
high-availability.kubernetes.leader-election.renew-deadline: 60s
Best,
Yang
On Tue, Mar 12
1
*杨勇*
Thomas Yang 于2024年1月5日周五 17:17写道:
> 本地测试发现 默认生成0ms,实际测试是两侧保留了永久状态,但是官方文档意思是0ms表示两侧都不保存状态. 是不是文档有错误?
> https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/concepts/overview/#idle-state-retention-time
>
> 另外咨询下: 如果0表示永久保留state 那么想不保存state应该使用什么值?
> *谢谢!*
>
>
> *杨勇*
>
本地测试发现 默认生成0ms,实际测试是两侧保留了永久状态,但是官方文档意思是0ms表示两侧都不保存状态. 是不是文档有错误?
https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/concepts/overview/#idle-state-retention-time
另外咨询下: 如果0表示永久保留state 那么想不保存state应该使用什么值?
*谢谢!*
*杨勇*
Hi, Jiacheng:
helm也是把values.yaml和你在命令行中传入的参数,代入到一些k8s的yaml模版里,render出来一个yaml文件,然后提交到k8s的。
这些是flink kubernetes operator的helm的模版。
https://github.com/apache/flink-kubernetes-operator/tree/main/helm/flink-kubernetes-operator/templates
你完全可以自己人肉修改这些yaml模版,然后提交到k8s,当然这很麻烦,也很容易出错。
使用helm的效率高很多,后续维护也简单。
您好,
我的 Flink job是以 reactive 模式运行,然后用了 Kubernetes HPA 来自动扩容/缩容
TaskManager。每当TaskManager
扩容/缩容的时候,Flink会在日志中报错:因为扩缩容之前的TaskManager没有在运行导致checkpoint失败,同时也有checkpoint失败的警报。
但实际上checkpoint 还能顺利进行, job也没有运行错误。 重启job后这个错误就会消失。想请教一下如何修复这个问题?
详细的日志如下
2022-12-13 05:08:22.339 [jobmanager-io-thread-1] INFO
可以通过JobResultStore[1]来获取任务最终的状态,flink-kubernetes-operator也是这样来获取的
[1].
https://cwiki.apache.org/confluence/display/FLINK/FLIP-194%3A+Introduce+the+JobResultStore
Best,
Yang
Weihua Hu 于2023年3月22日周三 10:27写道:
> Hi
>
> 我们内部最初版本是通过 cluster-id 来唯一标识一个 application,同时认为流式任务是长时间运行的,不应
可以通过给Prometheus server来配置metric_relabel_configs[1]来控制采集哪些metrics
[1].
https://prometheus.io/docs/prometheus/latest/configuration/configuration/#metric_relabel_configs
Best,
Yang
casel.chen 于2023年3月22日周三 13:47写道:
> 更正一下,监控flink的方式从pushgateway方式改成了直接prometheus定期来抓取,周期设置的是1分钟,之前用pushgateway方
Hey,
最近想把消费日志写入到HDFS中,找这块的connector发现大部分都停留在使用 BucketingSink 的方式,这个好像是老版本的api了,
这块官方推荐的最新的方式是什么呢?
--
Best,
Howie
其实可以参考Flink Kubernetes
Operator里面的做法,设置execution.shutdown-on-application-finish参数为false
然后通过轮询Flink RestAPI拿到job的状态,job结束了再主动停掉Application cluster
Best,
Yang
JasonLee <17610775...@163.com> 于2022年11月24日周四 09:59写道:
> Hi
>
>
> 可以通过 Flink 的 Metric 和 Yarn 的 Api 去获取任务的状态(任务提交到 y
. Right?
Best,
Yang
melin li 于2022年11月23日周三 23:46写道:
> The task is submitted by ApplicationDeployer api, and the run is
> synchronous and waiting for the submission to be completed. If the task is
> submitted to yarn, it is probably accepted and the yarn applicationID is
> not obtained
从1.15开始,任务结束不会主动把JobManager删除掉了。所以Kubernetes Operator就可以正常查到Job状态并且更新
Best,
Yang
¥¥¥ 于2022年10月25日周二 15:58写道:
> 退订
>
>
>
>
> -- 原始邮件 --
> 发件人:
> "user-zh"
>
> 发送时间: 2022年
你在Flink client端提交任务前设置一下HADOOP_CONF_DIR环境变量
然后再运行flink run-application命令
Best,
Yang
yanfei lei 于2022年9月22日周四 11:04写道:
> Hi Tino,
> 从org.apache.flink.core.fs.FileSystem.java
> <
> https://github.com/apache/flink/blob/master/flink-core/src/main/java/org/apache/flink/core/fs/
我猜测你是因为没有给TM设置service account,导致TM没有权限从K8s ConfigMap拿到leader,从而注册到RM、JM
-Dkubernetes.taskmanager.service-account=wuzhiheng \
Best,
Yang
Xuyang 于2022年8月30日周二 23:22写道:
> Hi, 能贴一下TM的日志吗,看Warn的日志貌似是TM一直起不来
> 在 2022-08-30 03:45:43,"Wu,Zhiheng" 写道:
> >【问题描述】
> >启用HA配置之
退订邮件需要发送邮件至 user-zh-unsubscr...@flink.apache.org
--
Best,
Howie
At 2022-08-08 17:09:50, "jack zhang" wrote:
>
hello,
版本:flink1.9
问题:作业每次手动停止做savepoint要5min,自动化checkpoint只需要秒级,
请问:
1. savepoint是要比checkpoint多存一些内容吗?
2. savepoint为什么这么耗时?(在不保存savepoint的情况下,也是秒级停止)
--
Best,
Howie
Webhook主要的作用是做CR的校验,避免提交到K8s上之后才发现
例如:parallelism被错误的设置为负值,jarURI没有设置等
Best,
Yang
Kyle Zhang 于2022年7月27日周三 18:59写道:
> Hi,all
> 最近在看flink-k8s-operator[1],架构里有一个flink-webhook,请问这个container的作用是什么,如果配置
> webhook.create=false对整体功能有什么影响?
>
> Best regards
>
> [1]
>
> h
Congrats! Thanks Gyula for driving this release, and thanks to all
contributors!
Best,
Yang
Gyula Fóra 于2022年7月25日周一 10:44写道:
> The Apache Flink community is very happy to announce the release of Apache
> Flink Kubernetes Operator 1.1.0.
>
> The Flink Kubernetes Operator all
你的理解是没有问题的
之所以将FlinkSessionJob拆成单独的CR来管理,主要是因为这样也更符合K8s的语义,在Session集群内每个Job也可以作为K8s资源来管理,Job状态变化就能及时更新到Status里面
Best,
Yang
yidan zhao 于2022年7月14日周四 23:01写道:
> 再咨询下关于 flink-k8s-operator 的问题。
> 我看了看问的文档,提供了2个CRD,分别为 FlinkDeployment 和 FlinkSessionJob。不知道如下理解对不对:
> (1)对于 application-mod
确认一下你是否正确设置了HADOOP_CONF_DIR环境变量
Best,
Yang
lishiyuan0506 于2022年7月14日周四 09:41写道:
> 打扰大家一下,请问一下各位在yarn提交flink的时候,有没有遇到过Retrying connect to server:
> 0.0.0.0/0.0.0.0:8030这个异常
>
>
> hadoop的classpath没问题,Spark和MR在Yarn上跑也没问题,就flink有这样的问题
>
>
> | |
> lishiyuan0506
> |
> |
> lishiyuan0...@163.com
> |
>
>
如果你K8s集群内的机器配置的DNS Server也是coredns,那就可以正常解析clusterIP对应的service的
最初ClusterIP的设计也是让任务管理的Pod来使用,例如flink-kubernetes-operator[1]
[1]. https://github.com/apache/flink-kubernetes-operator
Best,
Yang
yidan zhao 于2022年7月12日周二 13:17写道:
> 我用 flink run -m 方式指定 clusterIp 是可以提交任务的。
> 那么使用 --
, etc.) won't work from outside the Kubernetes cluster since
'kubernetes.rest-service.exposed.type' has been set to ClusterIP.
Best,
Yang
yidan zhao 于2022年7月12日周二 10:40写道:
> 如下步骤参考的文档
> https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/deployme
Hi,Xuyang
修改了作业的逻辑,但可能核心问题还是我修改了数据流中的pojo对象(新增了字段),最终导致了这个问题的出现
--
Best,
Howie
在 2022-06-29 22:52:04,"Xuyang" 写道:
>Hi,请问下是修改了作业的逻辑之后,根据savepoint重启吗?如果是这样,是状态不兼容的原因
>在 2022-06-29 17:57:54,"Howie Yang" 写道:
>>flink版本:1.9.0
>>
>>问题:使用lombok生成的poj
flink版本:1.9.0
问题:使用lombok生成的pojo对象,在数据流进行传输,中途终止任务做savepoint,state中保存应该都是这个对象;
从savepoint重启任务后,报这个error:StateMigrationException: The new state serializer
cannot be incompatible. ... Heap state backend
--
Best,
Howie
scala.Function0 中找到多个非覆盖抽象方法)
--
EMAIL: haoyuyan...@126.com
2022年6月28日
在 2022-06-28 17:07:04,"Howie Yang" 写道:
使用IDEA根据官网最新的教程
https://nightlies.apache.org/flink/flink-docs-master/docs/flinkdev/ide_setup/
将源码下载下来编译,报以下错误
Project Structure中版本
scala-sdk-2.12.7
使用IDEA根据官网最新的教程
https://nightlies.apache.org/flink/flink-docs-master/docs/flinkdev/ide_setup/
将源码下载下来编译,报以下错误
Project Structure中版本
scala-sdk-2.12.7
请问是什么原因呢?
--
EMAIL: haoyuyan...@126.com
2022年6月28日
Thanks Gyula for working on the first patch release for the Flink
Kubernetes Operator project.
Best,
Yang
Gyula Fóra 于2022年6月28日周二 00:22写道:
> The Apache Flink community is very happy to announce the release of Apache
> Flink Kubernetes Operator 1.0.1.
>
> The Flink Kuberne
-availability-data-clean-up
Best,
Yang
Zhanghao Chen 于2022年6月13日周一 07:53写道:
> 1.基于K8S做HA的Flink任务要想正常,不能手动删除作业deployment,必须通过cancel,stop命令进行停止。基于上面我猜测Flink
> k8s HA是基于ConfigMap之上开发的,其声明周期从K8S角度不能像作业的svc一样带ownerreference。
>
> 是的,Flink K8s HA 是基于 ConfigMap 开发的,并且 HA configmap 没有设置
> o
-operator
The full release notes are available in Jira:
https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315522&version=12351500
We would like to thank all contributors of the Apache Flink community who
made this release possible!
Regards,
Gyula & Yang
之信老师说得对
Thanks,
Zhuoluo
Jingsong Li 于2022年5月16日周一 09:58写道:
> 退订请回复到 user-zh-unsubscr...@flink.apache.org
>
> Best,
> Jingsong
>
> On Sun, May 15, 2022 at 1:04 PM cq <17691150...@163.com> wrote:
>
> > 退订
> >
> >
> >
> > Best Regards,
> >
> > Jacob.Q.Cao
> >
> >
> > TEL:17691150986
>
你到底需要之信老师给你讲多少遍,退订发个邮件到 user-zh-unsubscr...@flink.apache.org
Thanks,
Zhuoluo
孙洪龙 于2022年5月18日周三 10:39写道:
> 退订
>
可以临时通过-D "$internal.pipeline.job-id="来自定义job id,但是个内部参数
你可以看下[1],了解更多讨论的信息
[1]. https://issues.apache.org/jira/browse/FLINK-19358
Best,
Yang
谭家良 于2022年5月11日周三 22:17写道:
>
>
> 我使用的Application模式:Kubernetes
> 我使用的HA模式:Kubernetes HA
>
>
> 目前Application + HA发现
://nightlies.apache.org/flink/flink-docs-release-1.14/docs/ops/rest_api/#jars-jarid-run
[3].
https://github.com/apache/flink-kubernetes-operator/blob/main/e2e-tests/data/sessionjob-cr.yaml
Best,
Yang
天道酬勤 <1262420...@qq.com.invalid> 于2022年4月25日周一 16:51写道:
> 我的flink是通过kubernetes session 模式部署
> ,在提交任务的
get();
LOG.info("Job {} is submitted successfully", jobID);
}
}
}
Best,
Yang
吕宴全 <1365976...@qq.com.invalid> 于2022年4月24日周日 14:45写道:
> 我准备使用Kyuubi对接FlinkSQL,将任务运行在k8s环境中,任务可能包括离线作业(Application
> mode)和即席查询(Session mode)。在Application模式下,从jar中构建job
After more debugging, I think this issue is same as FLINK-24315[1],
which is fixed in 1.13.3.
[1]. https://issues.apache.org/jira/browse/FLINK-24315
Best,
Yang
Zheng, Chenyu 于2022年4月22日周五 18:27写道:
> I created a JIRA ticket https://issues.apache.org/jira/browse/FLINK-27350
> to trac
.
The ResourceManager also did not receive the terminated pod events. That's
why it does not allocate new TaskManager pods.
All in all, I believe you need to check the K8s APIServer status.
Best,
Yang
Zheng, Chenyu 于2022年4月22日周五 12:54写道:
> Hi developers!
>
>
>
> I got
你这个报错主要原因还是访问外部的一些镜像源失败导致的,你可以使用一些云厂商提供的代理来解决拉镜像失败的问题
或者使用--set webhook.create=false来关闭webhook功能
Best,
Yang
casel.chen 于2022年4月14日周四 15:46写道:
> The deployment 'cert-manager-webhook' shows
> Failed to pull image "quay.io/jetstack/cert-manager-webhook:v1.7.1": rpc
&g
多谢yu'an huang的补充
yu'an huang 于2022年3月9日周三 16:21写道:
> Hi Yang,
>
> 我看到你发的issue中是跟Resource ProfileInfo不可被序列化有关,查了下感觉应该是在这两个issue中被修复的:
> https://issues.apache.org/jira/browse/FLINK-25732 <
> https://issues.apache.org/jira/browse/FLINK-25732>,
> https://issues.
你用新版本试一下,看着是已经修复了
https://issues.apache.org/jira/browse/FLINK-19212
Best,
Yang
崔深圳 于2022年3月9日周三 10:31写道:
>
>
>
> web ui报错:请求这个接口: /jobs/overview,时而报错, <Exception on server
> side:\norg.apache.flink.runtime.rpc.akka.exceptions.AkkaRpcException:
> Failed to serialize th
Standalone Flink on K8s 和 native K8s都会有你说的这个问题
主要原因是标准输出打印到的pod console了,所以通过kubectl logs可以查看stdout日志,但webUI上就没有
你可以参考这个commit[1]自己编译一个Flink binary来实现
[1].
https://github.com/wangyang0918/flink/commit/2454b6daa2978f9ea9669435f92a9f2e78de357a
Best,
Yang
xinzhuxiansheng 于2022年3月2日周三 15:00写道
/FlinkKubeClientFactory.java#L58
Best,
Yang
JianWen Huang 于2022年1月10日周一 22:04写道:
> 首先感谢您答复。我也想到了采用第二种JOB动态+ConfigMap挂到Flink Client Pod中,然后命令提交。
> 另外您和官方文档都提到kube config的配置。请问flink client在源码实现中是在哪个地方去解析读取kube config的?
>
> Yang Wang 于2022年1月10日周一 15:17写道:
> >
> > 抱歉回复晚了
> >
> > 在实践中,Fl
行的思路是开发一个你们自己的K8s operator,然后通过CR的方式进行传递。可以参考这个简单的demo[1]
[1]. https://github.com/wangyang0918/flink-native-k8s-operator
Best,
Yang
JianWen Huang 于2021年12月30日周四 00:01写道:
> 明白了。感谢。
> 在实践中,Flink on Native K8s的部署方式需要一个机器同时拥有k8s和flink客户端才能很好的完成部署工作。
> 请问在工程实践上有什么比较好的持续集成提交方式。我目前想到两种。
&g
file:///home/service/var/chubaofs/flink/user/usrlib/
demo/httpclient-4.5.2.jar
你指定的这个文件是在镜像里面吗?如果不是需要打到镜像里面,或者使用pod template注入init-container来下载到容器里面
Best,
Yang
johnjlong 于2022年1月5日周三 18:28写道:
>
> 大佬们
> 我部署作业到k8s集群,有多个作业共享一个外部的jar的情况。外部的jar的通过共享存储,每个JM、TM都能访问。
> 我使用-C指定依赖的classpat
\
-Dkubernetes.pod-template-file=/path/of/pod-template.yaml \
local:///opt/flink/examples/streaming/StateMachineExample.jar
如果还是不明白,看一下这个测试的实现就清楚了[1]
[1].
https://github.com/apache/flink/blob/master/flink-end-to-end-tests/test-scripts/test_kubernetes_application_ha.sh
Best,
Yang
黄剑文 于2021年12月24日周五 17:57写道
使用flink
run-application来提交任务时,kubernetes.pod-template-file需要指定的是一个client-local的文件
不是镜像里面的
Best,
Yang
hjw <1010445...@qq.com.invalid> 于2021年12月23日周四 22:21写道:
> Flink版本:1.13Flink基于Native K8s
> 部署模式下,因为有场景需要,jobmanager和taskmanager需要配置一些特定的hosts,查阅官方文档后发现可以支持自己指定一些pod-Template来指定jm和tm的一
CPU不会触发驱逐的,只有内存的request/limit不一样可能会发生这样的事情
Best,
Yang
casel.chen 于2021年12月23日周四 17:18写道:
> cpu request和limit不同会有什么影响吗?会不会pod竞争不过被kill掉?
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
>
> 在 2021-12-20 11:36:02,"Jeff" 写道:
> >升级版本没有用的,
我觉得你可以尝试一下ship本地的hadoop conf,然后设置HADOOP_CONF_DIR环境变量的方式
-yt /path/of/my-hadoop-conf
-yD containerized.master.env.HADOOP_CONF_DIR='$PWD/my-hadoop-conf'
-yD containerized.taskmanager.env.HADOOP_CONF_DIR='$PWD/my-hadoop-conf'
Best,
Yang
chenqizhu 于2021年11月30日周二
如果你使用的是native模式,设计上cancel job以后,所有K8s相关的资源会被释放,HA相关的信息也会自动被删除[1]
出现重新拉起是不符合预期的,你可以把JM日志发出来具体看一下
[1].
https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/ha/kubernetes_ha/#high-availability-data-clean-up
Best,
Yang
研发-江志洋 于2021年11月30日周二 上午9:39写道:
> 你好,最近在使用Flink1.1
在Yarn上部署时,会把所有的LOCAL_DIRS都设置为io.tmp.dirs。这样在某些情况下可以达到更好的性能
因为这个本来就是用来存放临时文件的,不存在高可用的问题。
如果有一块盘坏掉,目前YARN只能保证新起的container不再使用这块盘,现有正在使用这个盘的container不会处理
所以,只能等container自己失败退出了
Best,
Yang
鲁成祥 <979775...@qq.com.invalid> 于2021年11月15日周一 下午8:30写道:
> 目前Flink Yarn集群上 io.tmp.dirs 统一配置了 /mnt/
-jobmanager-tolerations
Best,
Yang
casel.chen 于2021年11月15日周一 下午6:25写道:
> flink作业跑在一个k8s集群,该集群下面有若干个节点,想将某些节点给部门A使用,其他节点给部门B使用。请问flink有配置控制k8s调度吗?
> 1. 给节点打上标签
> 2. 作业提交的时候设置调度标签值
启动速度不应该这么慢的,你需要确认一下是否是下载镜像太慢导致的
如果是,可以把镜像提前预热到所有K8s节点,这样可以大幅减少启动时间
Best,
Yang
casel.chen 于2021年11月13日周六 上午8:46写道:
> 同一个作业,在请求资源相同的情况下,使用flink on native k8s session mode和application
> mode启动时间相差十几倍。
> 在session mode下提交作业,最多需要2分钟。而在application mode下提交作业,少则10分钟,多则半个小时至一个小时。
> 1. 想问一
我理解你的需求其实可以通过让cpu的limit与request大来解决,已经有相关的ticket但还没有实现
https://issues.apache.org/jira/browse/FLINK-15648
Best,
Yang
casel.chen 于2021年11月13日周六 上午8:52写道:
> 我发现作业启动时消耗的资源量是最大的,但当作业运行起来后资源消耗量会下降。
> 这点从cpu消耗看更为明显,申请了2 vCore (Request == Limit),作业启动会用到 1.2
> vCore,但当作业运行起来后实际只用到了0.8 vCore不
你可以查看一下JM的日志,看看提交的job或者failover之后恢复的job
id是不是397a081a0313f462818575fc725b3582
Best,
Yang
RS 于2021年11月15日周一 上午9:53写道:
> 查看下client的日志,一般在flink的logs目录下
>
>
>
>
> 在 2021-11-12 20:59:59,"sky" 写道:
> >我使用的事flink on yarn。在执行命令时: flink run -m yarn-cluster
> ./e
-t参数需要搭配-D一起来使用,而不是使用-y来引导
例如:-t yarn-per-job -Dyarn.application.name=flink-test
Best,
Yang
Lawulu 于2021年10月25日周一 上午11:41写道:
> 例如:
> bin/flink run -ynm flink-test -t yarn-per-job --detached
> ./examples/streaming/TopSpeedWindowing.jar
>
>
> 在yarn ui上面看name还是 Flink per-job cluster
东东是正确的
这种情况只能使用pod template来挂载PV或者使用hostpath来保存heap dump的文件
Best,
Yang
东东 于2021年9月17日周五 下午5:10写道:
> 升级到1.13用pod template吧,这之前的版本没有官方支持的方式
>
>
> 在 2021-09-17 16:43:53,"casel.chen" 写道:
> >为了监控TM OOM情况发生,我们在启动作业的时候添加了如下参数
> >-Denv.java.opts.taskmanage
export HADOOP_CLASSPATH=`hadoop classpath`
如上方式应该是没有问题的,你确认下这些目录下面的jar包是存在的,尤其是/Users//local/hadoop/hadoop-3.2.2/share/hadoop/yarn/
Best,
Yang
龙逸尘 于2021年8月31日周二 上午11:02写道:
> Hi Wayne,
>
> 可以尝试下指定 HADOOP_CONF_DIR
> export HADOOP_CONF_DIR=/opt/flink/hadoop-conf/
>
&g
日志采集一般两种方式:
1. K8s节点侧统一收集,例如阿里云的ilogtail[1],Flink一般只需要输出到标准输出或者emptyDir挂载就可以了
2. 利用log4j2 custom appender,直接将日志推送到存储服务(OSS、阿里云SLS等),需要自己写一个插件或者使用阿里云现有提供的
[1]. https://help.aliyun.com/document_detail/87540.html
Best,
Yang
东东 于2021年8月23日周一 下午12:14写道:
>
>
>
> 把容器的日志采集下来不就行了么,K8s下ELK采
看报错应该是个已知问题[1]并且已经在1.11.2中修复
[1]. https://issues.apache.org/jira/browse/FLINK-19212
Best,
Yang
周瑞 于2021年8月17日周二 上午11:04写道:
> 您好:Flink程序部署在Yran上以Appliation Mode 模式启动的,在没有采用HA
> 模式的时候可以正常启动,配置了HA之后,启动异常,麻烦帮忙看下是什么原因导致的.
>
>
> HA 配置如下:
> high-availability: zookeeper high-avail
目前Flink on Kubernetes的大feature已经开发完成,包括native Kubernetes[1](session mode
and application mode)、
Kubernetes HA[2]、pod template[3]
1.12版本也引入很多稳定性相关的提升,包括Job任务结束后清理HA信息、ClusterEntrypoint优化避免ConfigMap残留等,
已经达到生产可用的标准。
但是,我相信还是有很多需要打磨的细节,例如:当使用LoadBalancer时返回的结果可能是一个不正确的值,需要梳理
Fabric8FlinkKubeClient#g
运行在session内的任务日志无法独立配置
除非是你每个任务的用户代码package都不一样,在log4j中配置不同的package写入不同的文件。但Flink框架日志还是无法区分
Best,
Yang
东东 于2021年7月13日周二 下午12:56写道:
> 是的,日志配置是针对JM和TM的
>
>
>
>
>
> 在 2021-07-13 12:37:20,"casel.chen" 写道:
> >如果是 session
> mode的话,日志配置文件是对整个sessio
你直接修改ConfigMap中存储的log4j-console.properties就可以立即生效了,具体参考这里[1]
[1].
https://ci.apache.org/projects/flink/flink-docs-master/docs/deployment/resource-providers/native_kubernetes/#changing-the-log-level-dynamically
Best,
Yang
casel.chen 于2021年7月9日周五 下午8:29写道:
> flink运行在原生k8s上,现在想要修改Root Log
keys.
显示的是第二个join报错的,我感觉可能需要指定下join的JoinHint策略,让它强制进行repartition,不晓得是否可行。
您这边有时间的话,希望您能看一看哈,不管怎样,还是非常感谢您,祝您生活愉快!
| |
Eric Yang
|
|
ymj7...@163.com
|
签名由网易邮箱大师定制
在2021年07月3日 19:44,Terry Wang 写道:
Hi Eric~
图片打不开,能否提供下具体使用的flink版本,使用方式和报错的异常栈~
Best,
Terry Wang
2021年7月2日 下午4:02
hello,
您好,打扰到大家了,我使用的是flink的dataset的API,多个数据集进行join,比如,a join b join
c,最终运行报错了,报错如下:
我是需要在join的时候指定JoinHint策略么,求助,真的很感谢!
| |
Eric Yang
|
|
ymj7...@163.com
|
签名由网易邮箱大师定制
/flink-docs-master/docs/deployment/resource-providers/native_kubernetes/#application-mode
Best,
Yang
Best,
Yang
at003 于2021年6月17日周四 下午4:51写道:
> 哈喽,各位专家/大神:
>
> 为啥flink官方文档说明了flink on k8s 还有 native k8s都不支持 per-job mode 呢,但是搜索可以搜到好多教程。。。
>
> 谢谢
>
>
>
>
=512M
env.java.opts.taskmanager: -Xloggc:/opt/flink/log/taskmanager-gc.log
-XX:+UseGCLogFileRotation -XX:NumberOfGCLogFiles=2 -XX:GCLogFileSize=512M
Best,
Yang
WeiXubin <18925434...@163.com> 于2021年6月18日周五 下午2:27写道:
> 请问 *standalone K8S* 部署模式为 *Deploy Application Cluster* 在哪获取查看/怎么配置
> Ta
你可以参考一下RestClusterClient里面实现的使用ClientHighAvailabilityServices来获取leader地址的实现
Best,
Yang
yidan zhao 于2021年6月15日周二 下午2:52写道:
> 代码里不需要remoteEnv创建,你这种removeEnv是通过本地ide提交任务的情况。这种情况很少见,一般线上网络环境和办公网络是隔离的吧。
>
> yidan zhao 于2021年6月15日周二 下午2:49写道:
> >
> > 你这个方式不是用于测试嘛。线上情况不应该使用flin
Native Flink on K8s是可以运行batch任务的,目前还是用的K8s Deployment来管理JobManager。当任务结束以后,
会自动deregister整个Flink Application,此时会清理掉所有的K8s资源。
如果你想在结束后查看任务相关的一些信息,可以部署一个history server,并配置给batch任务
Best,
Yang
casel.chen 于2021年6月13日周日 上午12:18写道:
> 我们知道flink on 原生kubernetes当前是用k8s deployment运行一个流作业的,请问会用k8s jo
Native
k8s部署模式下,会自动将$FLINK_CONF_DIR目录下的flink-conf.yaml以及log4j-console.properties放到ConfigMap里面
然后挂载给JM与TM。你只需要修改对应的本地文件就好了
Best,
Yang
eriendeng 于2021年6月7日周一 下午3:09写道:
> Hi all,
> 最近再把flink任务迁移到native
> k8s,发现flink-conf系列的文件没有办法很好地被修改,比如log4j文件还有一些很通用的写在flink-conf的配置项(e.g.
>
HA在ZK里面记录了最后一次成功的checkpoint counter和地址,没有启用HA的话,就是从指定的savepoint恢复的。
Best,
Yang
刘建刚 于2021年5月28日周五 下午6:51写道:
> 那应该是master failover后把快照信息丢失了,ha应该能解决这个问题。
>
> 董建 <62...@163.com> 于2021年5月28日周五 下午6:24写道:
>
> > 稳定复现
> > checkpoint 正常生成,在web ui和hdfs目录里边都可以确认。
>
你可以describe一下失败JM的pod发出来,看看生成的启动命令是不是正确的
Best,
Yang
fz 于2021年5月28日周五 下午10:09写道:
> 镜像: flink:1.13.0-scala_2.11
>
> sed: cannot rename /opt/flink/conf/sed1yRdDY: Device or resource busy
> sed: cannot rename /opt/flink/conf/sed03zP3W: Device or resource busy
> /docker-entrypo
你参数配置错了,应该是kubernetes.rest-service.exposed.type=NodePort
Best,
Yang
仙剑……情动人间 <1510603...@qq.com> 于2021年5月12日周三 上午9:45写道:
> Hi All,
>
> 我这里在自己搭建的 k8s 测试环境中按照官网的 flink on k8s native
> 指南进行测试,然后一直报错,具体情况如下,请求大佬们的帮助,不胜感激。
>
> 一、环境
>
> k8s v1.18.16
> flink
你只需要修改本地Flink conf目录下面的log4j-console.properties就可以了
这个配置文件会通过ConfigMap自动ship到JM和TM上并使用
Best,
Yang
casel.chen 于2021年5月8日周六 下午11:57写道:
>
> 求大佬解答一下,谢谢!
>
>
>
>
>
> 转发邮件信息
> 发件人:"casel.chen"
> 发送日期:2021-05-08 11:50:03
> 收件人:"
Flink history server和native K8s是没有关联的,可以单独启动[1],你用一个K8s的deployment来部署一下即可
native K8s
app启动任务的时候增加jobmanager.archive.fs.dir参数,这样任务结束以后JM会将归档文件存储到dfs上面,以便history
server可以及时处理并展示
[1].
https://ci.apache.org/projects/flink/flink-docs-master/docs/deployment/advanced/historyserver/
Best,
Yang
目前Flink的history server并没有和Yarn NM的log
aggregation进行整合,所以任务结束以后只能看webui以及exception
日志是没有办法看的
Best,
Yang
lhuiseu 于2021年5月7日周五 下午1:57写道:
> Hi:
> flink 1.12.0
> on yarn 模式
> 已经Finish的任务可以再history server中找到。但是通过WebUI查看TaskManager Log报404。目前Flink
> History Server是不支持查看TaskManager聚合后的
你的cpu设置这么小,K8s是严格限制的
我怀疑TM启动很慢,一直注册不上来超时导致失败了,你可以看看TM log确认一下
另外,从你发的这个log看,rest endpoint应该已经成功启动了,可以通过来进行访问
Best,
Yang
casel.chen 于2021年4月5日周一 上午10:05写道:
> 最近试用flink kubernetes
> application时发现TM不断申请再终止,而且设置的LoadBalancer类型的Rest服务一直没有ready,查看不到flink web
> ui,k8s日志如下,这是什么原因?是因为
你只配置了JM的service account,-Dkubernetes.jobmanager
.service-account=flink-service-account
你试试改成-Dkubernetes.service-account=flink-service-account
Best,
Yang
1120344670 <1120344...@qq.com> 于2021年3月31日周三 下午2:26写道:
> 您好, 这是TM的报错,
> <http://apache-flink.147419.n8.nabble.com/file/t126
这样的报错多半是Flink的JM/TM进程就没有被Yarn正常拉起,你查看Yarn的NodeManager日志
搜索对应的container,应该会有一些线索的
Best,
Yang
flink2021 于2021年3月30日周二 上午9:40写道:
> 实时作业运行一段时间后报错:
> Container exited with a non-zero exit code 2. Error file: prelaunch.err.
> Last 4096 bytes of prelaunch.err
> 具体原因是什么呢?有哪位大佬帮忙看看呢,日志中只
我可以确认1.12.1和1.12.2已经修复,如果还是不能正常使用,麻烦发一下启动命令以及对应的TM报错日志
Best,
Yang
1120344670 <1120344...@qq.com> 于2021年3月29日周一 下午5:09写道:
> 您好:
>之前提交过一个关于这方面的issue,链接如下:
> http://apache-flink.147419.n8.nabble.com/flink1-12-k8s-session-TM-td10153.html
>目前看还是没有fix对应的issue。
>
>
目前已经有了一个ticket来跟进了,https://issues.apache.org/jira/browse/FLINK-17707
应该在1.13里面可以支持
Best,
Yang
casel.chen 于2021年3月26日周五 上午8:23写道:
> Flink on K8S Standalone模式下可以通过yaml启多个JM,但是在Native K8S模式下要如果做呢?有文档资料介绍吗?谢谢!
和Standalone一样,你可以按照自己创建一个taskmanager-query-state-service,然后把selector修改一下就好了
native会自动添加如下的label,可以filter出来属于一个Flink cluster的TaskManager
app:
component: taskmanager
type: flink-native-kubernetes
Best,
Yang
tian lin 于2021年3月25日周四 下午4:43写道:
> 各位好:
> 请教Flink 1.12.1 在Flink
这个问题的根本原因是云上LoadBalancer一直在给Flink创建的service发送RST包导致了
这个JIRA[1]可以了解更多信息
临时绕过去的方案就是在log4j2配置里面把org.apache.flink.runtime.dispatcher.DispatcherRestEndpoint这个类的log级别调到ERROR
[1]. https://issues.apache.org/jira/browse/FLINK-18129
Best,
Yang
18756225...@163.com <18756225...@163.com> 于2021年3月24日
Best,
Yang
Yapor <17379152...@163.com> 于2021年3月19日周五 下午2:13写道:
> Hi,各位社区的大佬,想了解下 flink 1.12 在yarn per
> job模式下HA的架构实现,是否有相关文档或图片描述呢?方便放出来,一起学习下!
你在运行flink run命令以前export一下FLINK_LOG_DIR应该就可以的
Best,
Yang
小旋锋 于2021年3月3日周三 下午12:12写道:
> Hi all.
> 通过flink run提交Flink作业,flink client产生的日志文件默认是在 $FLINK_HOME/log 下。
> 需要将每个作业提交产生的日志分别放到不同的目录下,那么请问如何动态指定每次flink run的日志文件的路径呢?
>
>
> 附:
> 1. 通过设置 env.log.dir 配置项的值,在 flink-conf.yam
根本原因还是因为你把8081端口暴露在了公网上面,并且Flink的rest endpoint默认是没有鉴权的
所以可以任意提交jar进行运行
你应该用的是session模式吧,application模式默认是把web提交任务关闭了的
Best,
Yang
Michael Ran 于2021年3月3日周三 上午11:03写道:
> 网络层面 不会直接到公网才对,是开了什么吧?
> 在 2021-03-02 13:04:41,"macdoor" 写道:
> >我不是安全专家,不知道如何才能确认是 flink 的问题,但从现象看跟之前 f
这个其实原因是阿里云的LoadBalancer探活机制不停的给Flink的rest endpoint发送RST导致的
目前有一个ticket来跟进这个问题[1],但还没有修复
短时间内你可以通过log4j的配置将org.apache.flink.runtime.jobmaster.MiniDispatcherRestEndpoint
这个package的log level设置为WARN来暂时避免
[1]. https://issues.apache.org/jira/browse/FLINK-18129
Best,
Yang
王 羽凡 于2021年3月1日周一 下午1:01写道
Flink的standalone application模式[1]是可以每个app都单独记录日志的
[1].
https://ci.apache.org/projects/flink/flink-docs-master/docs/deployment/resource-providers/standalone/kubernetes/#deploy-application-cluster
Best,
Yang
xingoo <23603...@qq.com> 于2021年2月22日周一 下午12:01写道:
> Hi,
>
> 这样体验上还是不太友好
也可以在build镜像的时候来进行设置
Best,
Yang
Michael Ran 于2021年2月19日周五 下午7:35写道:
> k8s 设置的
> 在 2021-02-19 09:37:28,"casel.chen" 写道:
> >目前是UTC时区的,怎样才能设置成当地的东8区呢?谢谢!
> >
> >
> >2021-02-19 01:34:21,259 INFO akka.event.slf4j.Slf4jLogger
> [] - Slf
我理解你说的应该是standalone session,这种模式下一个TM上面是会跑不同job的task的
TM里面的框架日志都是混在一起的,如果你的job class是在不同的package下面
可以用log4j2针对不同的package设置不同的logger以及appender来输出到不同路径
Best,
Yang
xingoo <23603...@qq.com> 于2021年2月20日周六 下午5:31写道:
> Dear All:
> 目前Flink部署主要采用standalone,想了解下如何在同一个taskmanag
containerized.taskmanager.env.ENABLE_BUILT_IN_PLUGINS:
flink-oss-fs-hadoop-1.12.1.jar
Best,
Yang
casel.chen 于2021年2月17日周三 下午5:42写道:
>
> 如题,在k8s环境下不想使用hdfs作为high-availability.storageDir,有没有办法直接使用oss呢?checkpoint和savepoint已经能够使用oss了。
启用HA以后,你需要创建一个有create/watch ConfigMap的权限的service account
然后挂载给JobManager和TaskManager
从你的报错看应该是没有配置service account
Best,
Yang
casel.chen 于2021年2月9日周二 上午12:10写道:
> 我试着答k8s上部署flink
> standalone集群,做HA之前集群是能够正常work的,在做HA的时候发现在configmap中添加了如下两个HA配置后JM就会抛异常,这是为什么?
>
>
> hi
那你可能需要把你的JobManager和TaskManager的日志发一下,才能进一步分析
主要需要确认的是连的端口是正确的,如果网络层面没有问题,那就有可能是哪个配置项使用了某个特定端口导致的
Best,
Yang
Junpb 于2021年2月8日周一 上午9:30写道:
> 你好,
> 我的测试环境yarn有三个节点,当TM启动只有一个时,JM和Tm随机启动在任何节点上都很正常,只有TM变为两个时,会出现报错。
> 每次启动JM和TM端口都是随机的,以上配置是确保2个TM启动,我现在怀疑是我其他配置导致的错误,谢谢
>
建议你使用telnet检查一下JM和有问题TM之间的网络连通性,Flink在这个地方没有已知的bug
Best,
Yang
Junpb 于2021年2月5日周五 下午8:09写道:
> nohup bin/flink run -m yarn-cluster \
> -c main \
> -ynm ${FLINK_NAME} \
> -ys 3 \
> -p 4 \
> -yjm 2048m \
> -ytm 2048m \
>
> 在flink on yarn 的情况下,使用以上flink run 参数,确保TaskMana
flink window doesn't support update stream.
HongHuangNeu 于2021年2月4日周四 上午9:24写道:
> 如果输入有回撤流的话,group by时间窗口会遇到GroupWindowAggregate doesn't support consuming
> update and delete changes,有没有什么替代方案?输入是来自于流式去重,就是
>
> SELECT [column_list]
> FROM (
>SELECT [column_list],
> ROW_NUMBER() OVER ([
-m yarn-cluster和-t yarn-per-job都是可以用来提交per-job任务到Yarn集群的
只是背后实现的CLI不一样而已,前者FlinkYarnSessionCLI是以前的方式
后者是在1.10引入的一个更加通用的方式,可以和K8s、Standalone等保持一致
另外,还有一个差异是,-m yarn-cluster是可以支持-yq -ynm等这些CLI参数的
-t yarn-per-job只能通过-D的方式来设置
Best,
Yang
lp <973182...@qq.com> 于2021年1月29日周五 下午3:00写道:
> 应该
Thanks Xintong for driving this release.
Best,
Yang
Yu Li 于2021年1月29日周五 下午3:52写道:
> Thanks Xintong for being our release manager and everyone else who made
> the release possible!
>
> Best Regards,
> Yu
>
>
> On Fri, 29 Jan 2021 at 15:05, Xintong Song wrote:
>
>&
窗口没有结束,所有的数据都还在的
xiaolail...@163.com 于2021年1月29日周五 上午11:27写道:
> 您好!最近刚开始学习flink,问一个关于trigger的问题:
>
> 如下的reduce操作:
> env.socketTextStream("localhost", )
> .flatMap(new Splitter())
> .keyBy(value -> value.f0)
> .window(TumblingEventTimeWi
两两join吧
hl9...@126.com 于2021年1月26日周二 下午2:28写道:
> 我们还没用到flink sql,有用流API实现的思路吗?
>
>
>
> hl9...@126.com
>
> 发件人: yang nick
> 发送时间: 2021-01-26 11:32
> 收件人: user-zh
> 主题: Re: 多流join的场景如何优化
> flink sql + zeppelin
>
> hl9...@126.com 于2021年1月26日周二 上午11:30写道:
&
建议用zeppelin
jinsx 于2021年1月26日周二 上午11:48写道:
>
> 想在生产环境部署flink-sql-gateway,通过jdbc方式提交sql任务。不知道flink-sql-gateway稳定性如何,有大佬能给点建议吗?
>
>
>
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/
flink sql + zeppelin
hl9...@126.com 于2021年1月26日周二 上午11:30写道:
> 请教各位大佬,我现在有个多流join计算的场景,不知道该如何进行优化。
>
> 电商业务有3个kafka消息源,消息结构描述如下(只列举主要字段):
> market_act(营销活动):
> {act_id:营销活动id,start_time:活动开始时间,end_time:活动结束时间,shop_id:活动的门店}
> new_member(新增会员): {member_id:新会员id,act_id:吸引会员的营销活动id,create_time:新会员生
应该是guava包冲突问题,请参考这篇文章(参考)
https://blog.csdn.net/u012121587/article/details/103903162
董海峰(Sharp) 于2021年1月24日周日 上午9:11写道:
> Hi,您好啊,我最近遇到一个问题,在社区里发过,但是没人回答,想请教您一下,烦请有空的时候回复一下,谢谢您啦。
> hadoop3.3.0 flink1.12 hive3.12
> I want to integrate hive and flink. After I configure the
> sql-client-dqfaults.ya
共有 321 项搜索結果,以下是第 1 - 100 matches
Mail list logo