Re: 背压分析

2023-08-16 Thread yidan zhao
1 可控范围即可。 2 分析阶段可以分开,实际运行阶段看情况,怎样性能高就如何搞。 3 看监控,flink web ui有根据每个节点的反压情况按照不同颜色展示。 星海 <2278179...@qq.com.invalid> 于2023年8月16日周三 22:03写道: > > hello。大家好,请教几个问题: > 1、flink中背压存在是合理的吗?还是在可控范围内就行?还是尽可能没有呢? > 2、如果出现背压,如果多个operator chain 在一起不好分析,需要先将其拆开分析吗? >

Re: 作业full gc 很严重

2023-08-03 Thread yidan zhao
GC日志看GC原因 2278179732 <2278179...@qq.com.invalid> 于2023年8月3日周四 13:59写道: > > 大家好,请问下作业跑一段时间就会偶发出现背压,full gc看着很严重,有什么好的工具排查下吗?或者经验文档?谢谢!

Re: Flink窗口状态清除疑问

2023-08-02 Thread yidan zhao
首先你窗口是30min,刚刚开始肯定会是涨的。 其次,后续稳定后,继续涨可能是因为流量在变化。 最后,流量不变情况下,还可能受到延迟的影响。 lxk 于2023年7月25日周二 11:22写道: > > 相关配置: > Flink:1.16 > > | Checkpointing Mode | Exactly Once | > | Checkpoint Storage | FileSystemCheckpointStorage | > | State Backend | EmbeddedRocksDBStateBackend | > | Interval | 8m 0s | > > >

Re: Flink ML

2023-08-02 Thread yidan zhao
这个取决于你是什么模型,比如python中sklearn的大多模型都可以导出成pmml格式模型,然后java用jpmml库就可以导入进行预测。 如果是tensorflow模型,也有,只不过我忘记了,你可以找找。 15904502343 <15904502...@163.com> 于2023年8月1日周二 16:48写道: > > 您好 > 我想知道是否有代码示例,可以在Flink程序中加载预先训练好的编码模型(用python编写)

Re: pyflink1.17 中文乱码

2023-06-07 Thread yidan zhao
可以描述再详细点 1 于2023年6月7日周三 19:55写道: > > 老师们好,pyflink运行官网例子 wordcount 。把单词改成中文 乱码 > > > > >

Re: 咨询flink1.17+jdk11环境下使用G1 GC发生大量full gc的问题

2023-06-03 Thread yidan zhao
k11 是不是用的最新版本,不是的话,觉得也可以尝试一下最新版本。 > > 如果 jdk11 用的最新版本,可以尝试下使用其他 GC 算法是否也有同样问题。比如 -XX:+UseParallelGC > -XX:NewRatio=3 -XX:ParallelGCThreads=4 -XX:CICompilerCount=4 > -XX:-CompactStrings > > Best, > Yuxin > > > yidan zhao 于2023年5月26日周五 17:39写道: > > > 最近升级fli

Re: 关于Table API 或 SQL 如何设置水印的疑问?

2023-05-30 Thread yidan zhao
你在hive的catalog中定义表的时候就可以定义好event time,以及watermark呀。 ZhaoShuKang 于2023年5月25日周四 08:53写道: > > 各位老师好,我最近在做Flink查询Hive的功能,需要用到窗口处理数据,在编写代码过程中无法设置水印,我看官网看到Table API & SQL > 设置事件时间有三种方式: > 1、在 DDL 中定义 > 2、在 DataStream 到 Table 转换时定义 > 3、使用 TableSource 定义 >

Re: flink 输出异常数据

2023-05-30 Thread yidan zhao
这个得靠你自己打日志吧,在可能出NPE的地方 try catch 到,然后打印原始记录。 小昌同学 于2023年5月29日周一 18:30写道: > > 你好,数据源是kafka,使用的是stream api > > > | | > 小昌同学 > | > | > ccc0606fight...@163.com > | > 回复的原邮件 > | 发件人 | Weihua Hu | > | 发送日期 | 2023年5月29日 15:29 | > | 收件人 | | > | 主题 | Re: flink 输出异常数据 | > Hi, > >

Re: flink jdbcsink 连接数的问题

2023-05-30 Thread yidan zhao
你好,这个问题和flink无关,看你主键实现机制吧,如果是自增,那就是mysql级别自动实现的自增,跟flink搭不上关系的。 小昌同学 于2023年5月31日周三 09:41写道: > > 老师,你好,再请教一下,连接数与并行度有关系的话,如果插入数据的MySQL是有主键的话,是不是连接数据也就是并行度只能为1啦呀,如果是多个并行度的话,可能会造成主键冲突; > 感谢各位老师的指导 > > > | | > 小昌同学 > | > | > ccc0606fight...@163.com > | > 回复的原邮件 > | 发件人 | lxk | > | 发送日期 |

Re: flink web ui显示问题

2023-05-30 Thread yidan zhao
没发现你web ui哪里显示了watermark呢? 小昌同学 于2023年5月31日周三 10:22写道: > > 你好,老师,感谢回复,我这边将截图放在了腾讯文档中,请查收; > 感谢各位老师的指导 > 【腾讯文档】flink web ui > https://docs.qq.com/sheet/DYkZ0Q0prRWJxcER4?tab=BB08J2 > > > | | > 小昌同学 > | > | > ccc0606fight...@163.com > | > 回复的原邮件 > | 发件人 | Shammon FY | > | 发送日期 |

咨询flink1.17+jdk11环境下使用G1 GC发生大量full gc的问题

2023-05-26 Thread yidan zhao
最近升级flink版本和jdk版本,flink从1.15.2升级到1.17.0,jdk从8升级到11。然后出现大量full gc。 分析后,发现主要是 System.gc() 导致。 进一步定位到是 redisson 库中 netty 部分用到了 DirectMemory 导致。 直接内存不足,导致频繁调用 System.gc 触发 full gc。 我现在问题是,通过测试对比实验发现,jdk8+flink1.17没问题,jdk11+flink1.17就会有该问题。 有人知道原因嘛? 其他信息:

Re: flink 窗口触发计算的条件

2023-05-24 Thread yidan zhao
如果你只发送了一条数据,那么watermark不会推进,就不会触发窗口计算。你需要更多数据。 小昌同学 于2023年5月25日周四 09:32写道: > > 各位老师,请教一下关于flink 事件时间窗口的执行时间点的相关问题; > 我使用的窗口是:TumblingEventTimeWindows(Time.minutes(1L)),我使用的时间定义是System.currentTimeMillis(),watermark是2秒, > 但是当我发送一条数据后,过了5分钟之后,窗口都没有触发计算,想请各位老师帮忙看一下程序的问题所在: > 相关代码以及样例数据如下: > | >

streaming.api.operators和streaming.runtime.operators的区别是啥?

2023-05-05 Thread yidan zhao
如题,想知道这个分类的标准是啥呢?

Re: 不同的流程使用不同的并行度

2023-04-20 Thread yidan zhao
从哪方面考虑,主要根据每个算子的工作复杂性,复杂性越高自然设置越高的并发好点。 其次实际运行时,也可以根据反压情况找到瓶颈进行调整。 Shammon FY 于2023年4月21日周五 09:04写道: > > Hi > > DataStream作业设置并发度有两种方式 > 1. 在ExecutionEnvironment通过setParallelism设置全局并发 > 2. 在DataStream中通过setParallelism为指定的datastream计算设置并发度 > > Best, > Shammon FY > > On Fri, Apr 21, 2023 at 8:58 

WindowAssigner中windowStagger作用

2023-04-06 Thread yidan zhao
如题,目前看实现,这个 windowStagger 是针对 opeartor 的众多 subtask 之间,针对每个 subtask 生成了一个固定的 offset 作用于该 subtask 处理的元素。因为 staggerOffset 是在 assignWindows 中生成,而且只有第一次会生成,后续复用。如下: if (staggerOffset == null) { staggerOffset = windowStagger.getStaggerOffset(context.getCurrentProcessingTime(), size); }

Re: PartitionNotFoundException

2023-04-02 Thread yidan zhao
设置 taskmanager.network.tcp-connection.enable-reuse-across-jobs 为 false,设置 taskmanager.network.max-num-tcp-connections 大点。 之前有个bug导致这个问题我记得,不知道1.16修复没有。 zhan...@eastcom-sw.com 于2023年4月3日周一 10:08写道: > > > hi, 最近从1.14升级到1.16后,kafka消费不定时会出现 >

Re: Re: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-08 Thread yidan zhao
实际使用你肯定不会是console producer吧。或者你换java代码写kafka,方便控制些。 wei_yuze 于2023年2月8日周三 13:30写道: > > 非常感谢各位的回答! > > > > Weihua和飞雨正确定位出了问题。问题出在Flink 并发数大于Kafka分区数,导致部分Flink task slot > 接收不到数据,进而导致watermark(取所有task slot的最小值)无法推进。 > > > 我尝试了Weihua提供的两个解决方案后都可以推进watermark求得窗口聚合结果。 > > >

Re: Unable to list jobs in flink cluster with multiple jobManagers

2023-01-12 Thread yidan zhao
I think it is a bug: https://issues.apache.org/jira/browse/FLINK-25732 Yael Adsl 于2022年12月12日周一 23:56写道: > > Hi, > > We are running a flink cluster (Flink version 1.14.3) on kubernetes with > high-availablity.type: kubernetes. We have 3 jobmanagers. When we send jobs > to the flink cluster, we

Re: 请问cancel的任务能够恢复running状态吗?

2023-01-12 Thread yidan zhao
话说我也有个问题,stop后基于savepoint恢复 不同于先savepoint,然后cancel后基于savepoint恢复? Weihua Hu 于2023年1月5日周四 10:38写道: > > Hi, > > 简单来说是不能,已经 cancel 的 job 状态不能恢复到 running 状态。用 savepoint 恢复的任务是新的 job。 > > 这个问题的背景是什么呢?什么情况下需要将已经 cancel 的 job 恢复呢? > > > Best, > Weihua > > > On Fri, Dec 30, 2022 at 5:12 PM 陈佳豪 wrote: >

Re: 任务本地运行正常,提交到集群报错 - 图片挂掉,文字贴一下报错信息,非常抱歉打扰

2023-01-12 Thread yidan zhao
看报错 Could not connect to BlobServer at address localhost/127.0.0.1:33271,你本地的配置是不是不对。提交到什么模式部署的集群,配置是否配对了。 WD.Z 于2023年1月10日周二 10:56写道: > > 任务在webui点击submit时报错,看起来是从JM提交到TM时报错,服务器防火墙已关闭,资源足够,还没有安装hadoop,但以standalone模式启动,看了下文档是不需要hadoop? > 报错中的Caused by列表如下: > > > 2023-01-10 09:46:14,627 INFO >

Re: 使用flink 动态广播mysql数据报错

2022-12-11 Thread yidan zhao
这没啥问题,但是你代码不能这么写,try catch放 while 内部去。放外边catch到异常不就退出循环了! bigdata <1194803...@qq.com.invalid> 于2022年12月11日周日 15:12写道: > > java.lang.InterruptedException: sleep interrupted > at java.lang.Thread.sleep(Native Method) > at >

Re: 1.15.2作业频繁(每 几十分钟 ~ 1小时)报 LocalTransportException: readAddress(..) failed: Connection timed out .

2022-12-07 Thread yidan zhao
目前感觉和 https://issues.apache.org/jira/browse/FLINK-19249 和 https://issues.apache.org/jira/browse/FLINK-16030 有点类似。网络环境不稳定。相同配置在物理机没问题。 yidan zhao 于2022年12月7日周三 16:11写道: > > 谢谢,不过这几个参数和netty关系不大吧。 > heartbeat和akka的可能会和rpc超时有关,不过我这个是netty的报错,不是rpc部分。 > web和rest应该是和client提交任务有关。 > >

Re: 1.15.2作业频繁(每 几十分钟 ~ 1小时)报 LocalTransportException: readAddress(..) failed: Connection timed out .

2022-12-07 Thread yidan zhao
谢谢,不过这几个参数和netty关系不大吧。 heartbeat和akka的可能会和rpc超时有关,不过我这个是netty的报错,不是rpc部分。 web和rest应该是和client提交任务有关。 Stan1005 <532338...@qq.com.invalid> 于2022年12月7日周三 15:51写道: > > 我也遇到过,tm的slot数一直是2,并行度高了就很容易出这个报错。tm内存保持为20480mb,相同的job讲并行度降低到256就没有报过这个。 > 另外可以考虑适当增加这几个参数(具体需要改动哪些建议先搜下这些参数的作用) > set

1.15.2作业频繁(每 几十分钟 ~ 1小时)报 LocalTransportException: readAddress(..) failed: Connection timed out .

2022-12-06 Thread yidan zhao
如题,这个问题长期存在,我想了解几个点: (1)connection time out 是连接时才会报的错误嘛?作业正常运行期间可能有嘛?我理解是连接时的报错,但是我看部分报错是作业运行不少时间才报错的(比如40分钟,1小时多),这种时刻为什么会有 connect 操作呢?netty的connection不是在作业启动时,就发 partition request 的时候创建好的嘛。 (2)之前调整过 netty 的 server 的 backlog,目前设置2048,不应该是这个导致。 (3)之前我TM都是1个slot,netty的server

Re: Re: flink sql作业无缝升级问题

2022-12-01 Thread yidan zhao
通过savepoint方式先停止作业可以,不停止,你要考虑是否你的作业是否能做到重复处理部分数据不影响准确性。 先做savepoint但不停止作业,新作业启动后,新旧作业是消费的数据是重复的,不会因为相同group就不重复。 因为kafka的消费是2个模式,一个是组模式,还有一个是不受到组约束的。Flink采用的是后者。 我说的那个方法是在kafka后边加一个filter,filter的参数就是start和end,根据start和end过滤数据。 而且这个start和end需要可动态配置,就是不重启作业能配置才行。

Re: flink sql作业无缝升级问题

2022-11-30 Thread yidan zhao
应该是不行,必须先停止。 除非业务层面做了改动,像我业务的话我支持动态配置消费数据的开始结束时间的过滤。这样假设当前作业为A,当前时间9点55分,先动态设置A消费到10点就停止。在10点前启动新作业B,并设置作业B从10点的作业开始消费。这样10点之后比如10点5分左右确认作业A已经消费完10点前数据且sink完就可以停止了。 否则没办法,指定相同group也不可以的应该,我记得flink是使用主动assign分区的方式使用kafka的,因此如果前后作业同时存在,实际是重复消费,不存在共享消费的概念。 刘超 于2022年12月1日周四 09:36写道: > > kafka

Re: Re: 怎样从flink执行计划json生成StreamGraph?

2022-11-29 Thread yidan zhao
好吧,sql我具体不了解,我用的stream api比较多,我了解是stream api到streamGraph,然后到jobGraph,然后就是直接rest api方式提交给集群执行。 standalone场景。 casel.chen 于2022年11月30日周三 00:16写道: > > 如果要支持调整flink sql作业每个算子资源和并行度的话,不是要从json转回streamGraph再提交吗? > > > > > > > > > > > > > > > > &g

Re: 怎样从flink执行计划json生成StreamGraph?

2022-11-28 Thread yidan zhao
并不需要从执行计划json生成streamGraph呀~ streamGraph提交之前直接转jobGraph。 casel.chen 于2022年11月28日周一 08:53写道: > > 源码中只找到如何从streamgraph生成执行计划的json串,但没有找到如何解析执行计划的json串生成回streamgraph,还请赐教

Re: 关于LocalTransportException的优化方向咨询

2022-11-21 Thread yidan zhao
hi,我们继续实验了reuse=false,max-num-tcp-connections继续为1的情况,也解决了问题。因此是reuse的问题。 yidan zhao 于2022年11月21日周一 10:34写道: > > 我们这边其实是生产环境一直有类似local/remote transport异常,其中一大类就是 Sending the partition > request to '...' failed 这种错误。 > > 当前是 1.15.2,默认 taskmanager.network.max-num-tcp-

Re: flink1.15.2无论blob.server.port设置什么端口范围,都会报错

2022-11-21 Thread yidan zhao
日志太少,建议开启debug日志后,发出来完整日志看看。 junjie.m...@goupwith.com 于2022年11月21日周一 19:04写道: > > flink1.15.2无论blob.server.port设置什么端口范围,都会报错。 > 如设置blob.server.port=“50100-50200”时报错: > Caused by: java.io.IOException: Unable to open BLOB Server in specified port > range: 50100 > at

Re: Load Distribution in specific Slot of Taskmanager in flink(version 1.15.2)

2022-11-20 Thread yidan zhao
If no data skew exists, you can set the job's parallelism any times of the count of taskmanagers, and set `cluster.evenly-spread-out-slots` to true in flink-conf.yaml of your flink cluster. harshit.varsh...@iktara.ai 于2022年11月7日周一 20:41写道: > > Dear Team, > > > > I need some advice on setting up

Re: 关于LocalTransportException的优化方向咨询

2022-11-20 Thread yidan zhao
> taskmanager.network.tcp-connection.enable-reuse-across-jobs 影响了任务稳定性。 > > 非常期待你的反馈,谢谢。 > > fanrui > > On 2022/11/18 04:25:47 yidan zhao wrote: > > Hi, weijie guo. > > 你在 https://issues.apache.org/jira/browse/FLINK-28695 > > 中提到的解决方案,我们这边实验观察看起来是有效的。 当然我们任

Re: 关于LocalTransportException的优化方向咨询

2022-11-17 Thread yidan zhao
aring的话也只会把A和B相同并发的share在一起,连接其他的subtask A还是要建立连接。 > 2.指的是作业jar,每个TM只会下载一次 > > Best regards, > > Weijie > > > yidan zhao 于2022年10月31日周一 19:54写道: > > > 嗯,问题1我主要是在想,这种复杂的连接关系,会不会增大Sending the partition request to '...' > > failed;这种异常的概率。 > > 问题2,你提到

Re: How to get checkpoint stats after job has terminated

2022-11-09 Thread yidan zhao
First of all, you should trigger a savepoint before stopping the job, and then you can restart the job with the savepoint. For checkpoints, you need to set ‘execution.checkpointing.externalized-checkpoint-retention’ to 'RETAIN_ON_CANCELLATION'. You can get the checkpoints info via history server.

Re: 关于LocalTransportException的优化方向咨询

2022-10-31 Thread yidan zhao
on reuse的,默认TM间建立一个物理TCP连接。 > 并发大了的话,你的TM只有一个slot,启动的TM会变多。task全变成running的状态变慢的因素也比较多:有些TM容器在的结点比较慢、下载jar包时间长、state > restore慢等 > > Best regards, > > Weijie > > > yidan zhao 于2022年10月30日周日 11:36写道: > > > 如题,我生产集群频繁报 org.apache.flink.runtime.io > > .network.

关于busy,idle,backpressure的指标

2022-10-30 Thread yidan zhao
当前我发现部分奇怪现象,比如A=>B。 存在A处于反压,但是B全部都是idle的,busy为0,这种情况是什么原因呢?

关于LocalTransportException的优化方向咨询

2022-10-29 Thread yidan zhao
如题,我生产集群频繁报 org.apache.flink.runtime.io.network.netty.exception.LocalTransportException 异常,具体异常cause有如下情况,按照出现频率从高到底列举。 (1)Sending the partition request to '...' failed; org.apache.flink.runtime.io.network.netty.exception.LocalTransportException: Sending the partition request to

Re: Tumble Window 会带来反压问题吗?

2022-10-20 Thread yidan zhao
> > > > > > 为了要10分钟发送,是因为上游太多数据, 所以我先提前用窗口个聚合一下,目前一秒将近有 800MB 的流量 > > > > > > > > Shammon FY 于2022年10月20日周四 11:48写道: > > > >> 如果必须要10分钟,但是key比较分散,感觉这种情况可以增加资源加大一下并发试试,减少每个task发出的数据量 > >> > >> On Thu, Oct 20, 2022 at 9:49 AM

Re: Tumble Window 会带来反压问题吗?

2022-10-19 Thread yidan zhao
这个描述前后矛盾,写出速度跟不上导致反压,那控制写出速度不是问题更大。不过你不需要考虑这些,因为你控制不了写出速度,只能控制写出时机。 写出时机是由window的结束时间和watermark决定的,所以如果真要解决,需要控制分窗不要固定整点10分钟。 macia kk 于2022年10月20日周四 00:57写道: > > 聚合10分钟再输出,到10分钟的时候由于积攒了很多数据,写出速度跟不上,导致反压,然后上游消费就处理变慢了。 > > 如果控制一下写出的速度,让他慢慢写会不会好一些

Re: Re: flink1.15.1 stop 任务失败

2022-10-14 Thread yidan zhao
< > > hinobl...@gmail.com; > > 发送时间:2022年8月23日(星期二) 晚上11:09 > > 收件人:"user-zh" > > > 主题:Re: Re: flink1.15.1 stop 任务失败 > > > > > > > > 1 大概率是source部分问题,或者 savepoint 的 trigger 层面。 > > 2 也可以从 cancel 和 stop 的区别上考虑下? > > 3 补充

Flink 的 Taskmanager 间网络连接数、task之间的result sub partition 数对任务性能的影响。

2022-10-13 Thread yidan zhao
任务假设: 任务从kafka读取数据,经过若干复杂处理(process、window、join、等等),然后sink到kafka。 并发最高240(kafka分区数),当前采用全部算子相同并发方式部署。 算子间存在 hash、forward、rebalance 等分区情况。 此处假设 A 和 B 算子之间是 rebalance。 C 和 D 算子直接是 hash 分区(无数据倾斜)。ABCD都是240并发。 其他算子暂忽略。 TM连接数: Flink 的 taskmanager 之间的共享 tcp

Re: Flink sql从ck恢复,统计数据波动问题

2022-10-10 Thread yidan zhao
ck“打”完是啥意思。 Congxian Qiu 于2022年10月10日周一 15:11写道: > > Hi > 可以的话也同步下相关的计算逻辑,从 checkpoint 恢复后的统计结果可能会和计算逻辑有关 > Best, > Congxian > > > Hangxiang Yu 于2022年10月10日周一 14:04写道: > > > 是什么值下跌呢?哪个metric吗? > > > > On Mon, Oct 10, 2022 at 1:34 PM 天下五帝东 wrote: > > > > > Hi: > > >

Re: PartitionNotFoundException

2022-09-28 Thread yidan zhao
加下游的等待时间和重试次数,减小出现 > PartitionNotFoundException 的概率。 > > Best, > Lijie > > yidan zhao 于2022年9月28日周三 17:35写道: >> >> 按照flink的设计,存在上游还没部署成功,下游就开始请求 partition 的情况吗? 此外,上游没有部署成功一般会有相关日志不? >> >> 我目前重启了集群后OK了,在等段时间,看看还会不会出现。 >> >> Shammon FY 于2022年9月28日周三 15:45写道: >

Re: PartitionNotFoundException

2022-09-28 Thread yidan zhao
署成功。 > 所以从这个异常错误来看netty连接是通的,你可能需要根据输出PartitionNotFoundException信息的计算任务,查一下它的上游计算任务为什么没有部署成功 > > On Tue, Sep 27, 2022 at 10:20 PM yidan zhao wrote: >> >> 补充:flink1.15.2版本,standalone集群,基于zk的ha。 >> 环境是公司自研容器环境。3个容器启JM+HistoryServer。剩下几百个容器都是TM。每个TM提供1个slot。 >> >>

Re: flink 的数据传输,是上游算子推给下游, 还是下游算子拉取上游, 设计的考虑是啥?

2022-09-27 Thread yidan zhao
其实可以和kafka的pull模型对比下,kafka消费是不断轮训pull。我的认知中flink应该不是吧? flink应该仅仅是请求 result partition 的时候下游主动去上游请求? 建立之后应该就是类似一条连接不断读取数据? yanfei lei 于2022年9月22日周四 11:31写道: > > Hi, > Flink社区有一篇关于Credit-based Flow Control的blog post >

Re: PartitionNotFoundException

2022-09-27 Thread yidan zhao
补充:flink1.15.2版本,standalone集群,基于zk的ha。 环境是公司自研容器环境。3个容器启JM+HistoryServer。剩下几百个容器都是TM。每个TM提供1个slot。 yidan zhao 于2022年9月27日周二 22:07写道: > > 此外,今天还做了个尝试,貌似和长时间没重启TM有关?重启后频率低很多会。 > 我预留的TM很多,比如500个TM,每个TM就提供1个slot,任务可能只用100个TM。 > 会不会剩下400的TM的连接,时间厂了就会出现某种问题? > > yidan zhao 于20

Re: PartitionNotFoundException

2022-09-27 Thread yidan zhao
此外,今天还做了个尝试,貌似和长时间没重启TM有关?重启后频率低很多会。 我预留的TM很多,比如500个TM,每个TM就提供1个slot,任务可能只用100个TM。 会不会剩下400的TM的连接,时间厂了就会出现某种问题? yidan zhao 于2022年9月27日周二 16:21写道: > > 打开了TM的debug日志后发现很多这种日志: > Responding with error: class > org.apache.flink.runtime.io.network.partition.PartitionNotFoundException >

PartitionNotFoundException

2022-09-27 Thread yidan zhao
打开了TM的debug日志后发现很多这种日志: Responding with error: class org.apache.flink.runtime.io.network.partition.PartitionNotFoundException 目前问题的直观表现是:提交任务后,一直报 LocalTransportException: org.apache.flink.runtime.io.network.netty.exception.LocalTransportException: Sending the partition request to

Re: flink cdc + kafka场景下增加kafka分区数问题

2022-09-26 Thread yidan zhao
之前是如何实现的,通过 kafka 的record key? casel.chen 于2022年9月26日周一 23:21写道: > > flink cdc > 消费mysql写到kafka场景下一开始数据量不大给的分区数可能只有3,后面业务数据量上来了需要添加分区数,例如12。那么问题来了,如何确保同一条记录的数据变更历史发到同一个kafka分区以确保下游消费的顺序性?重启作业好像也不能解决这个问题吧?

Re: flink的消费速率是否可以调整

2022-09-26 Thread yidan zhao
应该不行吧,kafka client本身就没有限速的功能。 Jason_H 于2022年9月26日周一 10:17写道: > > Hi,各位大佬: > 我们在使用flink消费kafka的时候,是否可以在代码中自定义消费速率,来调整源端的消费能力。 > > > | | > Jason_H > | > | > hyb_he...@163.com > |

flink web ui 异常问题

2022-09-20 Thread yidan zhao
如题,在工作中经常遇到flink任务各种异常,今天我列了下主要的异常,想请大佬们对不同异常的出现场景根据自身经验说下原因、场景、还有可能的优化解决方案。 (1) org.apache.flink.runtime.jobmaster.JobMasterException: TaskManager with id {...} is no longer reachable. (2) org.apache.flink.util.FlinkException: The TaskExecutor is shutting down. (3)

Re: 某作业计算算子处于busy状态

2022-09-19 Thread yidan zhao
那你代码检查下有没有内存泄露呢。 杨扬 于2022年9月19日周一 11:21写道: > > 还有一个现象,观察到 > taskHeap内存占用在逐步升高,作业刚启动的时候占用在10%左右,一周后增加至25%左右,两周后增加至50%左右,上述指的是GC后观察到的内存占用值。两周后计算算子几乎一直100%busy状态,端到端延迟已经达到了10s左右,作业已经不可用需要重启了。 > > > > > > 在 2022年9月15日,下午8:58,yidan zhao 写道: > > > > 本身低延迟一定程度上

Re: 任务启动异常导致Flink服务挂掉,无法启动Flink服务

2022-09-16 Thread yidan zhao
嗯。去zookeeper中删除jobgraph和running job xx吧啦的几个节点。 Summer 于2022年9月16日周五 16:51写道: > 开了,但是全被干挂了 > 回复的原邮件 > 发件人 yidan zhao > 发送日期 2022年9月16日 16:05 > 收件人 Summer > 抄送人 user-zh@flink.apache.org > > 主题 Re: 任务启动异常导致Flink服务挂掉,无法启动Flink服务 > HA模式开启了对嘛。 > > Summer

Re: 任务启动异常导致Flink服务挂掉,无法启动Flink服务

2022-09-16 Thread yidan zhao
HA模式开启了对嘛。 Summer 于2022年9月16日周五 15:48写道: > 原因是找到了,${FLINK_HOME}/lib缺少了一个任务依赖Jar包, > 那么如果我在不添加这个jar的情况下,由于Flink无法启动,怎么才能取消掉这个任务?? > > > > 回复的原邮件 ---- > 发件人 yidan zhao > 发送日期 2022年9月16日 14:51 > 收件人 Summer > 抄送人 user-zh@flink.apache.org > > 主题 Re: 任务启

Re: 任务启动异常导致Flink服务挂掉,无法启动Flink服务

2022-09-16 Thread yidan zhao
开启了HA是吧。 Summer 于2022年9月16日周五 14:32写道: > standlone部署 > > > > > > > > > ---- 回复的原邮件 > 发件人 yidan zhao > 发送日期 2022年9月16日 14:20 > 收件人 user-zh > 主题 Re: 任务启动异常导致Flink服务挂掉,无法启动Flink服务 > 什么部署模式。 > > Summer 于2022年9月16日周五 13:57写道: > > >

Re: 任务启动异常导致Flink服务挂掉,无法启动Flink服务

2022-09-16 Thread yidan zhao
什么部署模式。 Summer 于2022年9月16日周五 13:57写道: > > > Flink版本:1.13.3 > 我有一个Flink Sql的任务,也生成了checkpoint,但是执行过程出现Execption,导致整个Flink JobManger无法启动。 > 我再重启Flink的时候,这个FlinkSql任务由于一直抛异常导致Flink进程启动不起来。 > 请问有什么办法取消这个任务。 > > > > > > > > > > > > > > > > > > > > > >

Re: 某作业计算算子处于busy状态

2022-09-15 Thread yidan zhao
本身低延迟一定程度上就是靠“资源低利用率”实现的。资源高利用率情况,就是尽可能满负荷够用就行的意思。 yidan zhao 于2022年9月15日周四 20:57写道: > > 资源足够,busy 50%+,延迟如果也可接受的话,其实就不算问题。2s延迟不算高。 > > 杨扬 于2022年9月15日周四 20:02写道: > > > > 目前并发度已经设定为25,每个slot内存为4G,已经使用100G内存,峰值流量1TPS左右,资源是足够的吧? > > > > > > &g

Re: 某作业计算算子处于busy状态

2022-09-15 Thread yidan zhao
资源足够,busy 50%+,延迟如果也可接受的话,其实就不算问题。2s延迟不算高。 杨扬 于2022年9月15日周四 20:02写道: > > 目前并发度已经设定为25,每个slot内存为4G,已经使用100G内存,峰值流量1TPS左右,资源是足够的吧? > > > > > > 在 2022年9月15日,下午7:27,yidan zhao 写道: > > > > busy那就提升并发度看看效果? > > > > 杨扬 mailto:yangya...@cupdata.com>

Re: 某作业计算算子处于busy状态

2022-09-15 Thread yidan zhao
busy那就提升并发度看看效果? 杨扬 于2022年9月15日周四 14:51写道: > 各位好! > 目前有一flink作业,大致分为3个阶段: > 读取kafka中数据(1个source,并行度3)-> 进行数据筛选和条件判断(没有窗口操作,并行度25)-> > 结果写入kafka(20多个sink,每个sink并行度3)。可参考附件图片。 > > 目前存在的问题是:作业在运行一段时间后,中间25并行度的一系列计算算子会变为busy状态(会达到50%以上),端到端的信息延迟增加,偶尔延迟会达到2秒以上。此时作业日志并没有报错、异常、告警等信息。 > >

Re: Re: Key group is not in KeyGroupRange

2022-09-13 Thread yidan zhao
你发的代码就是原因,keySelector对于同一个输入数据,输出结果必须一致,不能不同。 如果需要实现类似效果,可以先使用 flatMap 生成 random key,然后将 key 存储到一个字段,比如就叫做 key,然后 keyBy("key") 这样可以。 junjie.m...@goupwith.com 于2022年9月9日周五 17:59写道: > > > Integer[] rebalanceKeys = createRebalanceKeys(parallelism); > int rebalanceKeyIndex = new

questions about FLINK-27341

2022-09-03 Thread yidan zhao
Hi, I want to know is there some way to avoid this problem now? I can not guarantee jobmanager and taskmanager do not run in the same machine.

Re: hello flink

2022-09-02 Thread yidan zhao
hello yh z 于2022年9月2日周五 18:30写道: > > Hello > > yh z 于2022年9月2日周五 11:51写道: > > > hello flink > >

Re: Issue with file system implementation

2022-09-01 Thread yidan zhao
Do you place the s3 jar to plugins/s3 dir? Darius Žalandauskas 于2022年8月31日周三 03:11写道: > > Hello apache-flink team, > For the last week I am really struggling with setting up EMR to store stream > output to AWS S3. > According to the documentation, if running flink with emr, no manual >

Cannot serialize operator object class org.apache.flink.streaming.api.operators.SourceOperatorFactory

2022-09-01 Thread yidan zhao
如下代码片段: watermarkStrategy = watermarkStrategy.withTimestampAssigner( new SerializableTimestampAssigner>() { @Override public long extractTimestamp(KafkaMessageWrapper element, long recordTimestamp) { try { return

咨询下大家访问jira、github慢咋解决的都。

2022-08-26 Thread yidan zhao
题目即问题,主要是jira,打开个页面好几十秒。

Re: 请问 taskmanger.host 和 taskmanager.bind-host 的区别是什么呢?

2022-08-26 Thread yidan zhao
貌似这个问题已经有jira了,https://issues.apache.org/jira/browse/FLINK-27341 这个会解决。看样子得等1.15.2或1.16了。 yidan zhao 于2022年8月26日周五 14:08写道: > > 目前我可运行方式是: > bind-host不配置,默认就是0.0.0.0(注意flink-conf中默认配了localhost,需要注释掉),或者配置为0.0.0.0。 > > JM和TM机器不重复,就是JM独立部署,这样ok。否则都会出问题。 > > yidan zhao

Re: 请问 taskmanger.host 和 taskmanager.bind-host 的区别是什么呢?

2022-08-26 Thread yidan zhao
目前我可运行方式是: bind-host不配置,默认就是0.0.0.0(注意flink-conf中默认配了localhost,需要注释掉),或者配置为0.0.0.0。 JM和TM机器不重复,就是JM独立部署,这样ok。否则都会出问题。 yidan zhao 于2022年8月26日周五 14:01写道: > > 如题,这俩地址啥区别呢? > > 1.15.1版本:从测试效果来看: > (1)Taskmanager实际绑定地址取决于 bind-host > (2)taskmanager.host 貌似被用于 tm 的resource-id部分使用了。

请问 taskmanger.host 和 taskmanager.bind-host 的区别是什么呢?

2022-08-26 Thread yidan zhao
如题,这俩地址啥区别呢? 1.15.1版本:从测试效果来看: (1)Taskmanager实际绑定地址取决于 bind-host (2)taskmanager.host 貌似被用于 tm 的resource-id部分使用了。 (3)假设我设置 host 为 localhost,bind-host为0.0.0.0。这导致我集群的web ui的taskmanager界面展示为: localhost:33865-c8a37d akka.tcp://flink@localhost:33865/user/rpc/taskmanager_0 localhost:43867-3afa06

Re: HA模式,standalone集群,仅单个 JM 情况下任务异常。

2022-08-25 Thread yidan zhao
知道问题了大概,远程debug下来,发现在获取地址时: (1)JM leader 机器,先拿 127.0.0.1 连接 resource-manager,直接成功,返回了 127.0.0.1。 (2)非 JM leader 机器,先拿 127.0.0.1 连接 resource-manager 失败,然后走下一个 local host 可以拿到正确 hostname。

Re: HA模式,standalone集群,仅单个 JM 情况下任务异常。

2022-08-25 Thread yidan zhao
今天远程调试了下,目前发现开启远程调试情况,启动后是ok的? yidan zhao 于2022年8月26日周五 00:01写道: > > 这个问题有人知道吗,目前反复实验确定有问题。 > > 经过多次测试,目前初步怀疑。 并不是单 JM 就会有问题。多JM也有问题。 > > 出问题的是JM为leader的机器。 比如ABCD4台机器,如果A的JM是leader,那么A机器启动的TM就是127.0.0.1。 > > > > yidan zhao 于2022年8月24日周三 10:30写道: > >

Re: 请教下flink源码分支和tag的命名

2022-08-25 Thread yidan zhao
hi。想继续问下。我目前看官方的 tag 1.15.1 显示不属于任何分支,所以最终1.15.1下载的发布包对应是不是1.15.1的tag呢? 包括后续1.15.2的修改是基于哪个分支 patch 上去的。 Lijie Wang 于2022年7月21日周四 14:01写道: > > Hi, > 1.15.1 应该是对应 tag release-1.15.1 > > yidan zhao 于2022年7月21日周四 12:53写道: > > > 我目前看了下,有一定规律但也还是不完全懂。 > > 比如我目前有部分公司内部用到

Re: HA模式,standalone集群,仅单个 JM 情况下任务异常。

2022-08-25 Thread yidan zhao
这个问题有人知道吗,目前反复实验确定有问题。 经过多次测试,目前初步怀疑。 并不是单 JM 就会有问题。多JM也有问题。 出问题的是JM为leader的机器。 比如ABCD4台机器,如果A的JM是leader,那么A机器启动的TM就是127.0.0.1。 yidan zhao 于2022年8月24日周三 10:30写道: > > masters: > A:8682 > workers: > A > B > C > > 都是内网hostname(相互都可解析),非127.0.0.1。 > > flink版本:1.1

Re: pyflink内存管理

2022-08-24 Thread yidan zhao
的内存算flink taskmanager 配置的内存,你应该可以用参数 > *'taskmanager.memory.task.off-heap.size* > 来配置,可以参考这个问题: > https://stackoverflow.com/questions/64323031/pyflink-1-11-2-couldn-t-configure-taskmanager-memory-task-off-heap-size-proper > > > > On Wed, 24 Aug 2022 at 1:05 PM, yidan zhao wrote

pyflink内存管理

2022-08-23 Thread yidan zhao
如题,pyflink场景的任务,内存是如何管理呢。 python部分的内存是否算入flink TaskManager配置的内存中呢? 比如python算子通过多进程做各种复杂的运算,这部分内存占用是否算入flink呢? —— 如果不算的话,使用pyflink时,容器内存和flink TaskManager内存配置是不是需要预留空间?

Re: HA模式,standalone集群,仅单个 JM 情况下任务异常。

2022-08-23 Thread yidan zhao
有多个内网 IP: A,B,C > > Best, > Weihua > > > On Tue, Aug 23, 2022 at 7:37 PM yidan zhao wrote: > > > > > 如题,目前发现任务报错是:org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: > > Partition > > c74a0a104d81bf2d38f76f104d65a2ab#27@7e1a8495f062f8ceb964

Re: Re: flink1.15.1 stop 任务失败

2022-08-23 Thread yidan zhao
1 大概率是source部分问题,或者 savepoint 的 trigger 层面。 2 也可以从 cancel 和 stop 的区别上考虑下? 3 补充信息:我的kafka source是用的旧版本(没办法用新版本,原因是由于一些原因我必须用 kafka 低版本 client)。 yidan zhao 于2022年8月23日周二 23:06写道: > > 看了下,报错很少。 > 反正 flink cancel -s 是可以的,flink stop 就不行。而且目测是瞬间失败。从web > ui来看,整个savepoint的完成是0/841,应该是几乎没开始就

Re: Re: flink1.15.1 stop 任务失败

2022-08-23 Thread yidan zhao
Best! > Xuyang > > > > > > Hi, TM上有报错信息嘛?有的话可以贴出来看一下是什么导致cp失败的 > 在 2022-08-23 20:41:59,"yidan zhao" 写道: > >补充部分信息: > >看日志,如果是 flink savepoint xxx 这样触发检查点,JM的日志很简单: > >2022-08-23 20:33:22,307 INFO > >org.apache.flink.r

Re: flink1.15.1 stop 任务失败

2022-08-23 Thread yidan zhao
ar:1.15.1] at java.lang.Thread.run(Thread.java:748) [?:1.8.0_251] yidan zhao 于2022年8月23日周二 20:31写道: > > 如题,stop,停止并保存检查点失败。 > 测试看 cancel、cancel -s 方式都成功。 cancel -s 可成功生成检查点并退出。 > > stop则不行,报错主要是 > Could not stop with a savepoint job "1b87f308e2582f3c

flink1.15.1 stop 任务失败

2022-08-23 Thread yidan zhao
如题,stop,停止并保存检查点失败。 测试看 cancel、cancel -s 方式都成功。 cancel -s 可成功生成检查点并退出。 stop则不行,报错主要是 Could not stop with a savepoint job "1b87f308e2582f3cc0e3ccc812471201" ... Caused by: java.util.concurrent.ExecutionException: java.util.concurrent.CompletionException:

HA模式,standalone集群,仅单个 JM 情况下任务异常。

2022-08-23 Thread yidan zhao
如题,目前发现任务报错是:org.apache.flink.runtime.io.network.partition.PartitionNotFoundException: Partition c74a0a104d81bf2d38f76f104d65a2ab#27@7e1a8495f062f8ceb964a3205e584613 not found —— 任务本身问题不大,也不是网络问题。 目前发现解决方法: 换成非单 JM 即可。 同时也发现一个可能原因,或另一个明显现象: 从web ui的Taskmanager界面可以发现,执行 start-cluster

pyflink目前map、flatmap都是process实现,那么process当前如何支持sideoutput呢?

2022-08-03 Thread yidan zhao
1 需求是根据输入流,根据字段判定,拆分并输出为2个流。 2 目前看 pyflink 的 api,貌似不支持 sideoutput。 3 虽然可以基于输入流 A,连续处理2次,即输入流 A 流向算子 B 和算子 C,分别筛选自己需要的数据进行处理。但这样会导致数据重复传输。

Re: Flink内部如何做到消息不丢失?

2022-08-02 Thread yidan zhao
我最近也在对比storm和flink。有没有大佬介绍下,storm这种ack模式的是不是恢复会更快点,目前我感觉storm的架构下,各个节点的fail over更加独立感觉。 Flink 目前集群中任何一个机器失败都会导致整个任务重启,耗时会长点。 但是从全局资源来说,ckpt的资源占用貌似又比ack模式少。 不知道理解对不对。 tison 于2022年7月30日周六 14:28写道: > > 可以看下这两份材料 > > * >

Re: pyflink 和 add_jars 的 add_classpaths 路径。

2022-07-27 Thread yidan zhao
我是本地直接ide内run。 Weihua Hu 于2022年7月27日周三 22:10写道: > > Hi, 你是怎么提交的任务呢?是提交到远端的 session cluster 上吗?有其他的相关日志吗? > > Best, > Weihua > > > On Wed, Jul 27, 2022 at 5:36 PM yidan zhao wrote: > > > 而且pyflink既然打包了flink的完整包,那么真正部署运行的时候是用这个呢?还是需要执行的机器上单独部署一个flink呢? > >

Re: 接收Http请求与flink如何建立联系

2022-07-27 Thread yidan zhao
使用一个算子实现个轻量级的http服务,然后把收到的数据通过广播流方式供给其他流使用。 Jeff 于2022年7月28日周四 10:00写道: > > 是想把动态参数传给正在执行的算子? > > > > > > > > > > > > > > > > > > 在 2022-07-28 08:16:40,"张锴" 写道: > >flink版本1.13.2 > >想通过http请求的方式将参数传给flink,这个怎么实现?

Re: pyflink 和 add_jars 的 add_classpaths 路径。

2022-07-27 Thread yidan zhao
而且pyflink既然打包了flink的完整包,那么真正部署运行的时候是用这个呢?还是需要执行的机器上单独部署一个flink呢? yidan zhao 于2022年7月27日周三 17:34写道: > > 我将这3个jar放到pyflink的lib下则是可以的。通过 add_jar 方式给出是不可以的。有人知道原因吗。 > > yidan zhao 于2022年7月27日周三 10:40写道: > > > > pyflink情况 flink-sql-connector-kafka-1.15.0.jar 可以。 > > 但 f

Re: pyflink 和 add_jars 的 add_classpaths 路径。

2022-07-27 Thread yidan zhao
我将这3个jar放到pyflink的lib下则是可以的。通过 add_jar 方式给出是不可以的。有人知道原因吗。 yidan zhao 于2022年7月27日周三 10:40写道: > > pyflink情况 flink-sql-connector-kafka-1.15.0.jar 可以。 > 但 flink-connector-base-1.15.0.jar + flink-connector-kafka-1.15.0.jar + > kafka-clients-2.8.1.jar 却报: > py4j.pro

Re: 关于 storm 转 flink 的一些咨询

2022-07-27 Thread yidan zhao
基于python实现一个flatMap,针对每个元素跑模型预测。主体则使用java,有什么实现方法吗? yidan zhao 于2022年7月13日周三 21:54写道: > > 谢谢回答。 > > Xingbo Huang 于2022年7月13日周三 16:55写道: > > > > Hi, > > > > 简单来说,如果你的作业逻辑中只使用了纯java的算子,比如你写的是一个没有使用 Python udf 的sql/table api > > 作业时,那么运行时就不需要对Python有需求,但

Re: pyflink 和 add_jars 的 add_classpaths 路径。

2022-07-26 Thread yidan zhao
: > > 最终会放到 pipeline.jars 配置中,在提交作业时上传到 blobServer > > Best, > Weihua > > > On Tue, Jul 26, 2022 at 5:40 PM yidan zhao wrote: > > > 如题,我看注释和文档。 > > add_jars 是添加要upload到cluster的jar,那么上传到什么路径呢? > >

pyflink 和 add_jars 的 add_classpaths 路径。

2022-07-26 Thread yidan zhao
如题,我看注释和文档。 add_jars 是添加要upload到cluster的jar,那么上传到什么路径呢?

为啥官方flink镜像连 ps、top、jps、ip、route 这些命令都没有。。。

2022-07-21 Thread yidan zhao
~

请教下flink源码分支和tag的命名

2022-07-20 Thread yidan zhao
我目前看了下,有一定规律但也还是不完全懂。 比如我目前有部分公司内部用到的,希望基于1.15.1的release上加的话,我需要基于哪个分支?还是tag做更改呢? 哪个branch、or tag是对应官方download页面提供的下载链接的包中一模一样的源码呢,就是不包含新增开发但未发布代码的版本。

1.15.1 web ui 控制台报错

2022-07-17 Thread yidan zhao
如图,1.15.1启动后,提交examples中任务,web ui 查看checkpoint,不显示内容。 console报错: main.a7e97c2f60a2616e.js:1 ERROR TypeError: Cannot read properties of null (reading 'checkpointed_size') at q (253.e9e8f2b56b4981f5.js:1:607974) at Sl (main.a7e97c2f60a2616e.js:1:186068) at Br

Re: standalone mode support in the kubernetes operator (FLIP-25)

2022-07-14 Thread yidan zhao
Hi all, Does 'standalone mode support in the kubernetes operator' means: Using flink-k8s-operator to manage jobs deployed in a standalone cluster? What is the advantag doing so. Yang Wang 于2022年7月14日周四 10:55写道: > > I think the standalone mode support is expected to be done in the version >

Re: flink native k8s 按照文档提交任务找不到对应的集群

2022-07-14 Thread yidan zhao
r > > Best, > Yang > > yidan zhao 于2022年7月12日周二 13:17写道: > > > 我用 flink run -m 方式指定 clusterIp 是可以提交任务的。 > > 那么使用 --target kubernetes-session > > -Dkubernetes.cluster-id=my-first-flink-cluster 的方式,为什么不能智能点拿到对应 > > cluster 的 svc 的 clusterIp 去提交呢。 > > > &g

Re: 关于 storm 转 flink 的一些咨询

2022-07-13 Thread yidan zhao
们知道python函数的性能是不如Java函数的。关于框架层的开销,我之前有写了专门的文章[3]分析过。 > > 希望对你有所帮助。 > > Best, > Xingbo > > [1] https://github.com/alibaba/pemja > [2] > https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/dev/python/python_execution_mode/ > [3] https://flink.apache.org/2022/05

Re: 关于 storm 转 flink 的一些咨询

2022-07-13 Thread yidan zhao
目前看了下pyflink,想了解下,pyflink的任务实际运行时也是JAVA+python双环境吗。 涉及java和python交互等是吗。性能相比java直接开发的任务会有区别吗? yidan zhao 于2022年7月12日周二 19:27写道: > > 公司有部分项目是基于 storm 开发的,目前想进行改造,计划用 flink。 > > 初步看了下代码,发现 storm 中实现都是通过 multi-lang 方式各种调用 shell、python > 实现。这些shell和python主要通过storm提供的一个 storm.py 基础包实

关于 storm 转 flink 的一些咨询

2022-07-12 Thread yidan zhao
公司有部分项目是基于 storm 开发的,目前想进行改造,计划用 flink。 初步看了下代码,发现 storm 中实现都是通过 multi-lang 方式各种调用 shell、python 实现。这些shell和python主要通过storm提供的一个 storm.py 基础包实现和 父进程 的通信(基于stdin和stdout貌似)。 想问问,这种如何改造呢? 首先是大方向上,(1)连同python、shell部分一起改造。(2)保留python、shell部分,基于flink实现一套类似机制。 (1)和(2)目前看起来都会很复杂。 有没有小伙伴做过类似事情呢?

Re: flink native k8s 按照文档提交任务找不到对应的集群

2022-07-11 Thread yidan zhao
我用 flink run -m 方式指定 clusterIp 是可以提交任务的。 那么使用 --target kubernetes-session -Dkubernetes.cluster-id=my-first-flink-cluster 的方式,为什么不能智能点拿到对应 cluster 的 svc 的 clusterIp 去提交呢。 yidan zhao 于2022年7月12日周二 12:50写道: > > 如果是在 k8s-master-node 上,可不可以直接用 ClusterIp 呢? > > > 其次,NodePort我大概理解,一直不是很懂

Re: flink native k8s 按照文档提交任务找不到对应的集群

2022-07-11 Thread yidan zhao
如果是在 k8s-master-node 上,可不可以直接用 ClusterIp 呢? 其次,NodePort我大概理解,一直不是很懂 LoadBalancer 方式是什么原理。 yidan zhao 于2022年7月12日周二 12:48写道: > > 我理解的 k8s 集群内是组成 k8s 的机器,是必须在 pod 内?我在k8s的node上也不可以是吧。 > > Yang Wang 于2022年7月12日周二 12:07写道: > > > > 日志里面已经说明的比较清楚了,如果用的是ClusterIP的方式,那你的Flink

Re: flink native k8s 按照文档提交任务找不到对应的集群

2022-07-11 Thread yidan zhao
10:23:23,021 WARN > org.apache.flink.kubernetes.KubernetesClusterDescriptor [] - > Please note that Flink client operations(e.g. cancel, list, stop, > savepoint, etc.) won't work from outside the Kubernetes cluster since > 'kubernetes.rest-service.exposed.type' has been set to ClusterIP. > > > Best, > Yang >

  1   2   3   4   >