Re: flink rest 接口部分数据不返回，返回空，状态200正常。

yidan zhao Tue, 31 May 2022 19:11:34 -0700

好的，谢谢，再遇到类似问题我试试。


Weihua Hu <huweihua....@gmail.com> 于2022年5月31日周二 22:27写道：
>
> Hi, yidan
> /watermark 是通过 Flink 内部 metric 进行采集的，为了防止每次 api 请求都进行 metric query，Flink
> 在内部实现了缓存机制，真实 query 的间隔可以通过参数[1] 控制，默认是 10s。
> 在Flink 内部查询 metric 时，如果失败会保存空记录，体现到 API 上就是返回了空的 list，可以尝试开启 DEBUG
> 日志来确认是否是由于 query metric 失败导致的
>
> [1] metrics.fetcher.update-interval
>
> Best,
> Weihua
>
>
> On Fri, May 20, 2022 at 12:54 PM yidan zhao <hinobl...@gmail.com> wrote:
>
> > 部分任务估计是原先看过ui图，打开后相关数据都能看，但是数字不变。比如其中一个任务的输入节点部分：Records Sent
> > 504,685,253，这个数字就不变了（但任务实际是在处理数据的），看网络请求也的确固定一直返回这个数据。
> > 纯粹转圈不出数据的任务是新提交的任务。
> >
> > 按照以往，我重启jm可能解决这个问题。
> >
> > yidan zhao <hinobl...@gmail.com> 于2022年5月20日周五 12:05写道：
> > >
> > > web ui图：https://s3.bmp.ovh/imgs/2022/05/20/dd142de9be3a2c99.png
> > > 网络视图：https://i.bmp.ovh/imgs/2022/05/20/f3c741b28bd208d4.png
> > >
> > > JM1（rest server leader） 异常日志：
> > > WARN  2022-05-20 12:02:12,523
> > > org.apache.flink.runtime.checkpoint.CheckpointsCleaner       - Could
> > > not properly discard completed checkpoint 22259.
> > > java.io.IOException: Directory
> > >
> > bos://flink-bucket/flink/default-checkpoints/bal_baiduid_ft_job/b03390c8295713fbd79f57f57a1e3bdb/chk-22259
> > > is not empty.
> > >         at
> > org.apache.hadoop.fs.bos.BaiduBosFileSystem.delete(BaiduBosFileSystem.java:209)
> > > ~[bos-hdfs-sdk-1.0.1-SNAPSHOT-0.jar:?]
> > >         at
> > org.apache.flink.runtime.fs.hdfs.HadoopFileSystem.delete(HadoopFileSystem.java:160)
> > > ~[flink-dist_2.11-1.13.2.jar:1.13.2]
> > >         at
> > org.apache.flink.runtime.state.filesystem.FsCompletedCheckpointStorageLocation.disposeStorageLocation(FsCompletedCheckpointStorageLocation.java:74)
> > > ~[flink-dist_2.11-1.13.2.jar:1.13.2]
> > >         at
> > org.apache.flink.runtime.checkpoint.CompletedCheckpoint.discard(CompletedCheckpoint.java:263)
> > > ~[flink-dist_2.11-1.13.2.jar:1.13.2]
> > >         at
> > org.apache.flink.runtime.checkpoint.CheckpointsCleaner.lambda$cleanCheckpoint$0(CheckpointsCleaner.java:60)
> > > ~[flink-dist_2.11-1.13.2.jar:1.13.2]
> > >         at
> > org.apache.flink.runtime.checkpoint.CheckpointsCleaner.lambda$cleanup$2(CheckpointsCleaner.java:85)
> > > ~[flink-dist_2.11-1.13.2.jar:1.13.2]
> > >         at
> > java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
> > > [?:1.8.0_251]
> > >         at
> > java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
> > > [?:1.8.0_251]
> > >         at java.lang.Thread.run(Thread.java:748) [?:1.8.0_251]
> > > INFO  2022-05-20 12:03:22,441
> > > org.apache.flink.runtime.checkpoint.CheckpointCoordinator    -
> > > Triggering checkpoint 21979 (type=CHECKPOINT) @ 1653019401517 for job
> > > 07950b109ab5c3a0ed8576673ab562f7.
> > > INFO  2022-05-20 12:03:31,061
> > > org.apache.flink.runtime.checkpoint.CheckpointCoordinator    -
> > > Completed checkpoint 21979 for job 07950b109ab5c3a0ed8576673ab562f7
> > > (1785911977 bytes in 9066 ms).
> > >
> > >
> > > 如上，我web-ui是开启的，所有是一直有请求刷的，不存在相关异常（当然本身从请求返回码200来看也不像是异常）。
> > >
> > > Shengkai Fang <fskm...@gmail.com> 于2022年5月20日周五 10:50写道：
> > > >
> > > > 你好，图挂了，应该是需要图床工具。
> > > >
> > > > 另外，能否贴一下相关的异常日志呢？
> > > >
> > > > Best,
> > > > Shengkai
> > > >
> > > > yidan zhao <hinobl...@gmail.com> 于2022年5月20日周五 10:28写道：
> > > >
> > > > > UI视图：[image: 1.png].
> > > > >
> > > > > 网络视图：
> > > > > [image: image.png]
> > > > >
> > > > >
> > > > > 补充部分集群部署信息：
> > > > > （1）flink1.13，standalone集群，基于zk做的HA。3 jm，若干tm。
> > > > > （2）jm的rest api开启了ssl，基于 nginx
> > > > > 做了代理转发（但大概率不会是机制问题，因为不是百分百出现此问题，我集群其他任务都正常，都是运行一段时间后会出现）。
> > > > >          猜测：是否可能和运行一段时间后，出现jm进程挂掉，任务recover更换，rest jm的leader变换有关呢？
> > > > >                     目前来看部分jm的日志偶尔存在ssl握手相关报错，但也挺奇怪。  注意：我web
> > > > > ui打开，看着jm的日志，是不出日志的（我是基于zk拿到leader，看leader jm的日志）。我web
> > > > > ui一直刷，理论上如果出错日志应该有相关报错，但实际没报错，报错和这个无关，都是ckpt吧啦的。
> > > > >
> >

Re: flink rest 接口部分数据不返回，返回空，状态200正常。

回复