Re: [ANNOUNCE] Apache Flink 1.19.0 released

2024-03-18 文章 Weihua Hu
Congratulations Best, Weihua On Tue, Mar 19, 2024 at 10:56 AM Rodrigo Meneses wrote: > Congratulations > > On Mon, Mar 18, 2024 at 7:43 PM Yu Chen wrote: > > > Congratulations! > > Thanks to release managers and everyone involved! > > > > Best, > > Yu Chen > > > > > > > 2024年3月19日

Re: K8s Appliaction模式无法支持flinkjar中Java动态编译?

2023-08-23 文章 Weihua Hu
Hi, 抱歉我对 JavaCompiler 不是非常了解,我想知道这些动态编译是运行在 UserJar 的 main 方法中吗?以及编译的产物是怎么传递给 Flink 的? Best, Weihua On Tue, Aug 22, 2023 at 5:12 PM 周坤 <18679131...@163.com> wrote: > 你好! > > 有一个关于flink K8S apllication模式运行的问题需要解答下; > > 原本又yarn per模式运行的flink需要切换到K8s apllication模式; > > > > >

Re: flink-job-history 任务太多页面卡死

2023-07-27 文章 Weihua Hu
Hi Flink UI 需要加载所有的 Job 信息并在 UI 渲染,在作业比较多的时候很容易导致 UI 卡死。 不只在这个页面,在一些并发比较大的任务上打开 subtask 页面也很容易导致UI 卡死。 Flink UI 需要一个分页的功能来减少数据加载和 UI 渲染的压力 Best, Weihua On Fri, Jul 28, 2023 at 11:29 AM Shammon FY wrote: > Hi, > > > 可以通过配置`jobstore.max-capacity`和`jobstore.expiration-time`控制保存的任务数,具体参数可以参考[1]

Re: (无主题)

2023-06-13 文章 Weihua Hu
> > 这个状态变量是否需要用transient来修饰 ValueState 再 Rich fuction 的 open 方法中被初始化,不应该被序列化和反序列化,建议使用 transient 来修饰。 但实际上自定义函数的序列化、反序列化只在任务部署阶段执行,而且初始状态下 ValueState 的值是 null,所以不使用 transient 关键字也不会有太大的影响。 以及什么情况下flink代码中需要用transient来修饰变量,什么情况下不用transient来修饰 理解自定义函数的序列化、反序列化是在任务部署阶段执行之后,这个问题就比较好回答了。 如果你的变量在是函数的

Re: flink 输出异常数据

2023-05-29 文章 Weihua Hu
Hi, 你使用的数据源是什么呢?Kafka 吗?用的是 FlinkSQL 还是 DataStream API 呢? 方便把异常栈贴一下吗 Best, Weihua On Mon, May 29, 2023 at 1:36 PM 小昌同学 wrote: > > 各位老师,我有一个作业运行很久了,但是最近源系统有一些脏数据导致作业运行失败,看yarn的日志报错是空指针,但是我现在想把那一条脏数据捕获到,请问一下有啥办法吗?谢谢各位老师的指导 > > > | | > 小昌同学 > | > | > ccc0606fight...@163.com > |

Re: Flink rocksDB疑似内存泄露,导致被Linux kernel killed

2023-04-21 文章 Weihua Hu
Hi, 你作业运行在 YARN 还是 Kubernetes 上?可以先关注下文档里的 Glibc 泄露问题 Best, Weihua On Fri, Apr 21, 2023 at 6:04 PM Guo Thompson wrote: > Flink > Job是基于sql的,Flink版本为1.13.3,state用rocksDB存,发现会存在内存泄露的情况,作业运行一段时间后,会被linux内核kill掉,求助,如何解决? > 网上 >

Re: kafka实例重启对flink作业的影响

2023-04-20 文章 Weihua Hu
Flink kafka connector 支持自动发现 partition,可以参考官方文档[1] [1] https://nightlies.apache.org/flink/flink-docs-release-1.17/docs/connectors/datastream/kafka/#dynamic-partition-discovery Best, Weihua On Thu, Apr 20, 2023 at 3:43 PM casel.chen wrote: > >

Re: 流数据转化为json

2023-04-17 文章 Weihua Hu
Hi, 你使用的那个 Flink 版本,建议直接参考 Flink 官方 kafka connector 文档[1]。 转换为 Json 数据格式可以使用 flink-json format [1] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/datastream/kafka/#kafka-sink [2] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/datastream/formats/json/

Re: flink sink web ui显示为Sink: Unnamed

2023-04-14 文章 Weihua Hu
可以,在算子后可以通过 .name("xxx") 来命名 Best, Weihua On Fri, Apr 14, 2023 at 4:27 PM 小昌同学 wrote: > 我将流式数据输出到mysql,查看flink 自带的web ui界面,有一个sink节点显示为Sink: Unnamed > ,这个针对sink节点可以命名嘛 > > > | | > 小昌同学 > | > | > ccc0606fight...@163.com > |

Re: Re: PartitionNotFoundException

2023-04-09 文章 Weihua Hu
Hi, 可以提供下 JobManager 和相关 TaskManager 的日志吗? 一般来说 PartitionNotFoundException 只在作业启动建立链接的时候才会出现, 根据你的描述,应该是一个消费 Kafka 的流式任务,不太应该在运行一周后 出现 PartitionNotFoundException 可以检查下是否存在其他异常 Best, Weihua On Mon, Apr 10, 2023 at 9:51 AM zhan...@eastcom-sw.com < zhan...@eastcom-sw.com> wrote: >

Re: [ANNOUNCE] Flink Table Store Joins Apache Incubator as Apache Paimon(incubating)

2023-03-27 文章 Weihua Hu
Congratulations! Best, Weihua On Mon, Mar 27, 2023 at 9:02 PM yuxia wrote: > congratulations! > > Best regards, > Yuxia > > > 发件人: "Andrew Otto" > 收件人: "Matthias Pohl" > 抄送: "Jing Ge" , "Leonard Xu" , "Yu > Li" , "dev" , "User" < > u...@flink.apache.org>, "user-zh" > 发送时间: 星期一, 2023年 3 月

Re: flink sql作业监控指标operator name和task name超长导致prometheus OOM问题

2023-03-24 文章 Weihua Hu
Hi, 现在不会过滤指标,可以尝试修改 PrometheusReporter 将不需要的 label 过滤掉 https://github.com/apache/flink/blob/master/flink-metrics/flink-metrics-prometheus/src/main/java/org/apache/flink/metrics/prometheus/AbstractPrometheusReporter.java#L104 需要注意这里的 key 的格式是 这种 Best, Weihua On Fri, Mar 24, 2023 at 2:47 PM

Re: 我上报的一个sql bug没人处理怎么办?

2023-03-21 文章 Weihua Hu
Hi 我使用同样的 SQL 没有复现该问题,你可以提供下复现的办法吗? Best, Weihua On Wed, Mar 22, 2023 at 10:28 AM Jeff wrote: > bug地址: > https://issues.apache.org/jira/browse/FLINK-31375?filter=-2 > > > bug详细内容: > the values of map are truncated by the CASE WHEN function. > // sql > create table test (a map) with

Re: Flink实时计算平台在k8s上以Application模式启动作业如何实时同步作业状态到平台?

2023-03-21 文章 Weihua Hu
Hi 我们内部最初版本是通过 cluster-id 来唯一标识一个 application,同时认为流式任务是长时间运行的,不应该主动退出。如果该 cluster-id 在 Kubernetes 中查询不到,说明作业已经异常退出了,此时标记作业为异常。后续我们开发了特殊的 operator + crd 来管理 pod 声明周期,防止 pod 快速退出。 另外,作业状态还可以通过启用 history server[1] 来查看 [1]

Re: 无法设置任务名

2023-03-15 文章 Weihua Hu
Hi, UI 显示的任务名是什么呢? Best, Weihua On Wed, Mar 15, 2023 at 8:02 PM wei_yuze wrote: > 您好! > > > > > 我在使用flink1.16.0。在通过这个方式设置了任务名: > streamExecutionEnvironment.execute("jobName") > 但是web UI 中并不显示出设置的用户名。请问哪位大佬能答疑一下,感谢!

Re: flink k8s 部署启动报错

2023-03-13 文章 Weihua Hu
_DIRTY.json 看下以这个结尾的文件,内容应该是一个 json,如果不是标准 json 说明数据已经异常了,可以尝试删除 Best, Weihua On Tue, Mar 14, 2023 at 11:23 AM Jason_H wrote: > 您好, > 我找到了我的ha目录,请教一下,怎么确定哪些数据是脏数据,可以允许删除的,这个有什么办法可以确定吗,我看到的都是些系统数据 > > > | | > Jason_H > | > | > hyb_he...@163.com > | > ---

Re: flink k8s 部署启动报错

2023-03-13 文章 Weihua Hu
Hi, 看异常信息是 Flink 集群在启动时检索到 HA 路径上存在 DirtyResults 数据,但是数据已经不完整了,无法正常读取。 可以参考文档[1],检查相关的 HA 路径,清理下异常数据 另外问一下,之前是通过同名的 cluster-id 启动过 Flink 集群吗? [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#job-result-store-storage-path Best, Weihua On Tue, Mar 14, 2023 at

Re: Re: flink on yarn关于yarn尝试重启flink job问题咨询

2023-03-13 文章 Weihua Hu
r 13, 2023 at 4:27 PM guanyq wrote: > 图片在附件 > 但是实际却是超过了10次。。 > > > > > > > 在 2023-03-13 15:39:39,"Weihua Hu" 写道: > >Hi, > > > >图片看不到了 > > > >按照这个配置,YARN 应该只会拉起 10 次 JobManager。 > > > >Best, > >Weihua > > >

Re: flink on yarn关于yarn尝试重启flink job问题咨询

2023-03-13 文章 Weihua Hu
Hi, 图片看不到了 按照这个配置,YARN 应该只会拉起 10 次 JobManager。 Best, Weihua On Mon, Mar 13, 2023 at 3:32 PM guanyq wrote: > flink1.10版本,flink配置如下 > yarn.application-attempts = 10 (yarn尝试启动flink job的次数为10) > 正常我理解yarn会尝试10次启动flink job,如果起不来应该就会失败,但是在yarn应用页面看到了尝试11次,如下图 >

Re: Re: Re: flink on yarn 异常停电问题咨询

2023-03-09 文章 Weihua Hu
Hi 一般来说只是 YARN 集群异常停电不会影响已经完成的历史 Checkpoint(最后一次 Checkpoint 可能会写 hdfs 异常) 有更详细的 JobManager 日志吗?可以先确认下 Flink 在恢复时检索到了多少个 completedCheckpoint 以及最终尝试从哪一次 cp 恢复的。 也可以尝试按照 Yanfei 所说指定历史的 cp 作为 savepoint 恢复 Best, Weihua On Fri, Mar 10, 2023 at 10:38 AM guanyq wrote: > 没有开启增量chk >

Re: Flink异步Hbase导致Too many open files异常

2023-03-08 文章 Weihua Hu
Hi, 通过代码看作业在Failover 时的确会有 HBaseClient 的资源泄露。 在 HbaseDimensionAsyncFunc 中重写一下 close 方法,释放掉 HBaseClient。 Best, Weihua On Wed, Mar 8, 2023 at 4:19 PM aiden <18765295...@163.com> wrote: > Hi > 我在使用Async Hbase时频繁遇到too many open file异常,程序自动重启后会立即报错,具体报错日志如下: > 2023-03-08 16:15:39 >

Re: flink on K8S(operator) 如何获取 Accumulator

2023-03-06 文章 Weihua Hu
Hi, 按照你的描述,我猜测你使用的是 Application 模式吧?这种模式下 user code 会在 JobManager 侧执行,Job 执行结束后会直接 shutdown cluster。 可以尝试使用 session mode[1] 部署 cluster [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/resource-providers/native_kubernetes/#session-mode Best, Weihua On Mon, Mar 6, 2023

Re: Flink内存问题

2023-03-02 文章 Weihua Hu
Hi, 针对问题 2, 可以增加下列环境变量来排除 Glibc 的问题,详情可以参考[1] containerized.master.env.MALLOC_ARENA_MAX: 1 containerized.taskmanager.env.MALLOC_ARENA_MAX: 1 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/memory/mem_trouble/ Best, Weihua On Thu, Mar 2, 2023 at 8:10 PM 吴先生

Re: 退订

2023-02-27 文章 Weihua Hu
退订请发送邮件到 user-zh-unsubscr...@flink.apache.org Best, Weihua On Tue, Feb 28, 2023 at 12:13 AM zhangjunjie wrote: > 退订 > > >

Re: 【Windowing TVF】 GROUP BY window_start, window_end 没有输出

2023-02-27 文章 Weihua Hu
Hi, 可以详细描述下你的使用 case 吗?用的 SQL 语句是什么样子的 Best, Weihua On Mon, Feb 27, 2023 at 12:51 PM wei_yuze wrote: > 您好! > > > > > 我在使用Windowing table-valued functions (Windowing TVFs) 的时候,GROUP BY 中一旦加上 > window_start, window_end 就没有输出,但也不报错。请问有哪位大佬知道是什么原因吗? > > Lucas

Re: flink taskmanger重启失败的问题

2023-02-23 文章 Weihua Hu
月23日 上午11:36,Weihua Hu 写道: > > > > Hi, > > > > 在 Cancel 其他 task 时会先将 task 状态置为 cancelling,这时 task 失败是不会二次触发 Failover 的。 > > 可以检查下是不是作业划分了多个 region,多个 region 的异常是统一计数的。 > > > > 或者可以贴一下日志吗? > > > > > > Best, > > Weihua > > > &g

Re: flink taskmanger重启失败的问题

2023-02-22 文章 Weihua Hu
Hi, 在 Cancel 其他 task 时会先将 task 状态置为 cancelling,这时 task 失败是不会二次触发 Failover 的。 可以检查下是不是作业划分了多个 region,多个 region 的异常是统一计数的。 或者可以贴一下日志吗? Best, Weihua On Thu, Feb 23, 2023 at 11:16 AM 唐世伟 wrote: > 我们有一个flink任务,同时写10几张doris表,每次doris出问题的时候任务就挂,flink的重启策略没有效果。 > flink的重启配置入下: > restart-strategy:

Re: Re: [急] flink sql写数据到带主键表时能确保相同主键的记录都被同一个taskmanager处理吗?

2023-02-21 文章 Weihua Hu
如果想保证每次写入 mysql 的事件是最新的,需要在 Flink 内部针对事件时间排序取 TOP 1, 可以参考[1]。 但是需要注意这需要使用 state,你可以需要指定合适的 TTL[2] 来保证 state 不会过大 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/sql/queries/topn/ [2]

Re: Whether Flink SQL window operations support "Allow Lateness and SideOutput"?

2023-02-21 文章 Weihua Hu
Hi, Maybe you can use CURRENT_WATERMARK()[1] to handle some late data. [1] https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/functions/systemfunctions/ Best, Weihua On Tue, Feb 21, 2023 at 1:46 PM wang <24248...@163.com> wrote: > Hi dear engineers, > > One question as

Re: 广播流与非广播流 数据先后问题

2023-02-20 文章 Weihua Hu
Hi, 可以看到你的问题,你需要订阅 user-zh 的邮件列表才能收到相关的回复,可以参考: https://flink.apache.org/community.html Best, Weihua On Tue, Feb 21, 2023 at 12:17 PM 知而不惑 wrote: > 有收到我的问题吗 > > > > > --原始邮件-- > 发件人: > "user-zh" > >

Re: 广播流与非广播流 数据先后问题

2023-02-20 文章 Weihua Hu
Hi, 可以把具体的报错信息贴一下,另外代码中没有看到使用 listState 缓存元素的部分 Best, Weihua On Tue, Feb 21, 2023 at 9:38 AM 知而不惑 wrote: > 各位大佬好 > 我使用广播流与非广播流进行connet,随后继承实现了BroadcastProcessFunction,运行时发现在自定义实现的BroadcastProcessFunction > 中,广播流数据会先到,导致processElement() 中获取广播流数据为空,请问有什么写法或机制解决该问题?我尝试在谷歌和chatgpt > 找寻答案,给到的回复是

Re: Re: flink canal json格式忽略不识别的type

2023-02-19 文章 Weihua Hu
Hi, 可以尝试使用: json.ignore-parse-errors[1] 来忽略解析的报错,需要注意这个参数会忽略所有的解析错误 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/formats/json/#json-ignore-parse-errors Best, Weihua On Mon, Feb 20, 2023 at 10:14 AM casel.chen wrote: > 日志中就是报这个 "type":"INIT_DDL"

Re: Re: Flink程序内存Dump不了

2023-02-19 文章 Weihua Hu
Hi, 可以把心跳超时(heartbeat.timeout)[1]也调大再尝试 dump 内存。 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#advanced-fault-tolerance-options Best, Weihua On Mon, Feb 20, 2023 at 1:58 PM lxk wrote: > 我尝试调整了参数,具体数值如下 > > > akka.ask.timeout: 900s > > > > 但还是报同样的错 > > > >

Re: Kafka 数据源无法实现基于事件时间的窗口聚合

2023-02-07 文章 Weihua Hu
Hi, 问题应该是 kafka source 配置了多并发运行,但数据量比较少(或者 topic 的 partition 数量小于 task 的并发数量),不是所有的 source task 都消费到了数据并产生 watermark,导致下游聚合算子无法对齐 watermark 触发计算。 可以尝试通过以下办法解决: 1. 将 source 并发控制为 1 2. 为 watermark 策略开始 idleness 处理,参考 [#1] fromElement 数据源会强制指定并发为 1 [#1]

Re: idea构建flink源码失败

2023-02-06 文章 Weihua Hu
Hi, Flink 1.15 版本之后已经不支持 JDK 8 了,可以尝试使用 jdk 11 编译,另外在 idea 编译具体是怎么操作的呢?可以尝试在命令行编译,如果有问题可以发一下更多的错误日志。 源码编译可以参考文档: https://nightlies.apache.org/flink/flink-docs-master/docs/flinkdev/building/ Best, Weihua On Sat, Feb 4, 2023 at 6:06 PM tiger <2372554...@qq.com.invalid> wrote: > hi, > > >

Re: 如何监控flink sql on native k8s作业是否过度申请资源?

2023-01-16 文章 Weihua Hu
Hi, casel Flink 本身会采集 JVM 层面的资源使用量,详情可以参考官方文档 https://nightlies.apache.org/flink/flink-docs-master/docs/ops/metrics/#cpu 除此之外,可以看下 Kubernetes 是否部署了相关的资源监控服务,可以从 Pod 层面查看资源使用率。 Best, Weihua On Tue, Jan 17, 2023 at 11:41 AM casel.chen wrote: > 我们flink >

Re: flink-kubernetes-operator部署问题

2023-01-09 文章 Weihua Hu
Hi, 我看到你的作业将宿主机的 /tmp/flink 挂载到了容器内,并使用该路径作为 ha 的根路径。Flink 会在该目录下创建子目录存在 cp、ha 相关的数据。这个报错一般是对应的 ha 目录没有创建成功,建议检查下 /tmp/flink 的目录权限。 如果是这个问题,我想Flink 应该更早的暴露目录权限异常,而不是等待后续校验路径是否存在时报错。 Best, Weihua On Mon, Jan 9, 2023 at 5:17 PM 圣 万 wrote: > 您好: > >

Re: 请问cancel的任务能够恢复running状态吗?

2023-01-04 文章 Weihua Hu
Hi, 简单来说是不能,已经 cancel 的 job 状态不能恢复到 running 状态。用 savepoint 恢复的任务是新的 job。 这个问题的背景是什么呢?什么情况下需要将已经 cancel 的 job 恢复呢? Best, Weihua On Fri, Dec 30, 2022 at 5:12 PM 陈佳豪 wrote: > hi > 我目前测试flink restapi > 指定savepointpath来恢复任务发现会重新触发创建一个新的任务原有的任务还是cancel状态,请问有办法恢复原有cancel状态的任务为running吗?

Re: flink sql connector options如何支持Map数据类型?

2022-12-18 文章 Weihua Hu
Hi, 你可以尝试使用独立开源的 http connector https://github.com/getindata/flink-http-connector Best, Weihua On Sat, Dec 17, 2022 at 10:21 AM casel.chen wrote: > 我想开发一个Flink SQL Http Connector,遇到用户添加自定义请求头Headers问题,如何在connector > options中支持Map数据类型呢?

Re: Remote system has been silent for too long. (more than 48.0 hours)

2022-11-02 文章 Weihua Hu
Hi, 这种情况一般是这两个 TaskManager 出现故障断开连接了。可以再查看下之前的日志验证下。 Best, Weihua On Wed, Nov 2, 2022 at 9:41 AM casel.chen wrote: > 今天线上 Flink 1.13.2 作业遇到如下报错,请问是何原因,要如何解决? > 作业内容是从kafka topic消费canal json数据写到另一个mysql库表 > > > 2022-09-17 19:40:03,088 ERROR akka.remote.Remoting > [] -

Re: Flink k8s operator高可用部署Flink Session Cluster,提交job遇到异常。

2022-10-27 文章 Weihua Hu
Hi, Young 你的分析是正确的。Flink kubernetes operator 是通过 rest service 来跟 Flink cluster 通信的,Kubernetes 会随机将发往 service 的请求路由到后端的多个 JM Pod 上。任务提交流程分为了:uploadJar,runJob,deleteJar 三个 API,所以会在 opeartor 的日志里看到相关的错误。 也许你可以创建一个 jira issue 来跟进这个问题 Best, Weihua On Thu, Oct 27, 2022 at 6:51 PM Young Chen wrote:

Re: 使用flink-operator 配置中的 taskmanager.numOfSlots 取值存在问题?

2022-10-27 文章 Weihua Hu
Hi, LiTing 这是因为 flink-operator 默认配置中有以下两项默认值。 > taskmanager.numberOfTaskSlots: 2 > parallelism.default: 2 你可以在作业的 yaml 的 flinkConfiguration 中覆盖这两个默认配置 Best, Weihua On Thu, Oct 27, 2022 at 9:12 AM Jason_H wrote: > hi,Liting Liu > >

Re: 请教下flink源码分支和tag的命名

2022-08-26 文章 Weihua Hu
release 版本会对应到 tag 1.15.1 上,开发改动在是 release-1.15 分支的。 Best, Weihua On Fri, Aug 26, 2022 at 10:10 AM yidan zhao wrote: > hi。想继续问下。我目前看官方的 tag 1.15.1 显示不属于任何分支,所以最终1.15.1下载的发布包对应是不是1.15.1的tag呢? > > 包括后续1.15.2的修改是基于哪个分支 patch 上去的。 > > Lijie Wang 于2022年7月21日周四 14:01写道: > > > > Hi, > > 1.15.1

Re: Re: Flink Kafka Sink Error: org.apache.kafka.common.errors.UnsupportedVersionException: Attempted to write a non-default producerId at version 0

2022-08-26 文章 Weihua Hu
可以尝试升级到 2.5+ Best, Weihua On Thu, Aug 25, 2022 at 6:41 PM gulugulucxg wrote: > 您好,集群版本是1.1.1,是挺低的,是这个原因吗,升级到多少合适呢 > 在 2022-08-25 18:31:06,"Weihua Hu" 写道: > >kafka 集群的版本是什么呢?看起来是集群版本有点低了 > > > >Best, > >Weihua > > > > > >On Thu,

Re: Flink Kafka Sink Error: org.apache.kafka.common.errors.UnsupportedVersionException: Attempted to write a non-default producerId at version 0

2022-08-25 文章 Weihua Hu
kafka 集群的版本是什么呢?看起来是集群版本有点低了 Best, Weihua On Thu, Aug 25, 2022 at 3:41 PM gulugulucxg wrote: > 大佬们好: > > 我这边指定EXACTLY_ONCE写kafka后,任务直接起能起来,但是从savepoint起任务总是失败,kafka-clients版本2.5.0,flink版本及相关依赖版本均为1.12.4, > > 异常如下: > > 2022-08-25 10:42:44 > >

Re: HA模式,standalone集群,仅单个 JM 情况下任务异常。

2022-08-23 文章 Weihua Hu
PartitionNotFoundException 应该是跟描述的有一台 TM ip 是 127.0.0.1 有关,其他 TM 节点链接不到这个节点。 用的什么版本呢? 配置文件是这样的吗? master 文件中有一个 内网 IP: A workers 文件中有多个内网 IP: A,B,C Best, Weihua On Tue, Aug 23, 2022 at 7:37 PM yidan zhao wrote: > >

Re: flink sql支持监听单个文件内容变化吗?

2022-08-19 文章 Weihua Hu
Hi, 不支持监听单个文件的变化,但是可以监听某个目录下文件的新增。 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/filesystem/#source Best, Weihua On Fri, Aug 19, 2022 at 11:56 AM casel.chen wrote: > flink sql支持监听单个文件内容变化吗?文件中每一行是一条记录,对外输出的模式可以全量或者变量。

Re: akka.framesize配置问题

2022-08-19 文章 Weihua Hu
Hi, 看这个报错没有影响 Flink 任务的运行,不太像是 Flink 内部的通信。可以检查下是否有外部非预期的 API 请求(可能是安全的定期扫描?) Best, Weihua On Fri, Aug 19, 2022 at 3:31 PM 杨扬 wrote: > 各位大佬好! > 最近将升级flink至1.14.2版本后出现附件图片中告警,每天固定时间告警几次。 > 经过初步排查属于akka.framesize设置问题,默认值太小需要调大,但是感觉需要调大的过多了,想请教下直接调教至200M以上是否合理? > PS:使用 flink on yarn

Re: 关于flink读取csv文件问题

2022-08-09 文章 Weihua Hu
Hi, CSVInputFormat 默认没有考虑引号,会直接按照 ',' 分割单行。可以尝试在解析 csv 时指定双引号 csvInputFormat.enableQuotedStringParsing('"'); Best, Weihua On Wed, Aug 10, 2022 at 9:40 AM 胡凌瑞 wrote: > > 你好,我有一个CSV文件在附件中,我通过flink读取csv文件,已经按照CSV文件的格式创建了对应的POJO,然后使用PojoCsvInputFormat来解析他,这里是我的代码 > [image: image.png] > > >

Re: Oracle CDC产生大量logminer日志

2022-08-09 文章 Weihua Hu
Hi Kyle, 你可以尝试启动 Flink cluster 前修改 conf/log4j.properties 的内容来过滤特定的日志 Best, Weihua On Tue, Aug 9, 2022 at 5:10 PM Kyle Zhang wrote: > Hi,Team > 最近在使用cdc的方式获取oracle数据的时候,dba反馈产生了大量的logminer日志,有没有方式调整日志级别,或者有特定参数可以加上? > > > > > Best >

Re: Re:Does flink sql support UDTAGG

2022-08-08 文章 Weihua Hu
Hi, wang Maybe you can take a look at https://nightlies.apache.org/flink/flink-docs-master/docs/dev/table/sql/create/#create-function Best, Weihua On Mon, Aug 8, 2022 at 3:52 PM wang <24248...@163.com> wrote: > > > > Hi, > > > Thanks for your response, I guess what I need should be this one

Re: pyflink 和 add_jars 的 add_classpaths 路径。

2022-07-27 文章 Weihua Hu
; > > kafka-clients-2.8.1.jar 却报: > > > py4j.protocol.Py4JError: > > > org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer does > > > not exist in the JVM > > > > > > Weihua Hu 于2022年7月26日周二 21:21写道: > > > > > > > > 最终会放到 pipeline.jars 配置中,在提交作业时上传到 blobServer >

Re: pyflink 和 add_jars 的 add_classpaths 路径。

2022-07-26 文章 Weihua Hu
最终会放到 pipeline.jars 配置中,在提交作业时上传到 blobServer Best, Weihua On Tue, Jul 26, 2022 at 5:40 PM yidan zhao wrote: > 如题,我看注释和文档。 > add_jars 是添加要upload到cluster的jar,那么上传到什么路径呢? >

Re: 如何获取Job启动时间

2022-07-25 文章 Weihua Hu
Hi,当前的确没有太多的打点和日志,按照我们的经验,需要在代码流程中插入一些日志和打点来辅助做基准测试 Best, Weihua On Fri, Jul 22, 2022 at 6:50 PM 邹璨 wrote: > Hi, > 有个问题想请教一下~ > 项目需要优化Job启动时间,并做基准测试。查阅资料后发现下面博客中做过类似的测试: > https://flink.apache.org/2022/01/04/scheduler-performance-part-one.html > 但不知道里面的时间是如何获取的,不知是否有对应的指标或日志,还是只能人为观测。 > > 谢谢~

Re: flink on yarn 作业挂掉反复重启

2022-07-25 文章 Weihua Hu
可以检查下是不是 JobManager 内存不足被 OOM kill 了,如果有更多的日志也可以贴出来 Best, Weihua On Mon, Jul 18, 2022 at 8:41 PM SmileSmile wrote: > hi,all > 遇到这种场景,flink on yarn,并行度3000的场景下,作业包含了多个agg操作,作业recover from checkpoint > 或者savepoint必现无法恢复的情况,作业反复重启 > jm报错org.apache.flink.runtime.entrypoint.ClusterEntrypoint

Re: Re: flink-hudi-hive

2022-07-12 文章 Weihua Hu
on: Connection refused: n103/192.168.10.227:35961 > 2022-07-12 09:33:02,585 WARN akka.remote.ReliableDeliverySupervisor > [] - Association with remote system > [akka.tcp://flink@n103:35961] > has failed, address is now gated for [50] ms. Reason: [Association failed > w

Re: 请教:关于如何释放 Flink Job 中某个对象持有的资源

2022-07-12 文章 Weihua Hu
Hi, 不建议在 TM 内部多个 Task 间共享变量,每个 Task 单独使用自己的资源,在 RichFunction open 时初始化资源,close 时释放资源。否则容易导致资源泄露 Best, Weihua On Tue, Jul 12, 2022 at 2:31 PM RS wrote: > Hi, > > > 如果是访问ES的话,Flink里面自带ES的connector,你可以直接使用,或者参考源码,source和sink接口都有对应的方法 > > > >

Re: flink web ui Checkpoints显示为空

2022-07-12 文章 Weihua Hu
Hi, 这种情况应该是作业没有开启 CheckPoint,可以检查下作业逻辑 Best, Weihua On Tue, Jul 12, 2022 at 3:30 PM 陈卓宇 <2572805...@qq.com.invalid> wrote: > flink1.14.5 > > flink web ui Checkpoints显示为:No Data

Re: sql-client java.lang.ClassNotFoundException: org.apache.flink.formats.parquet.ParquetColumnarRowInputFormat

2022-07-11 文章 Weihua Hu
Hi, 看起来 lib 目录下的文件权限不一样,flink-sql-parquet-1.15.0.jar 是 root 用户的,flink 进程是通过什么用户启动的呢? Best, Weihua On Mon, Jul 11, 2022 at 7:36 PM jiangjiguang719 wrote: > hi, > 我使用 sql-client 读取parquet文件,报错: > [ERROR] Could not execute SQL statement. Reason: > java.lang.ClassNotFoundException: >

Re: flink-hudi-hive

2022-07-11 文章 Weihua Hu
Hi, 任务反复初始化是指一直在 Failover 吗?在 JobManager.log 里可以看到作业 Failover 原因,搜索关键字; "to FAILED" Best, Weihua On Mon, Jul 11, 2022 at 2:46 PM ynz...@163.com wrote: > Hi, > 我正在使用flink将数据写入hudi并同步至hive,将任务提交到yarn后,我从flink web > ui看到:相关任务反复初始化,task managers无任何信息。日志中也无明确错误提示 ; >

Re: filesystem java.lang.ClassNotFoundException: org.apache.flink.table.planner.delegation.ParserFactory

2022-07-11 文章 Weihua Hu
Hi, 有更详细的日志吗?看起来是类加载冲突的,需要明确下是哪个类冲突了 Best, Weihua On Wed, Jul 6, 2022 at 1:53 PM RS wrote: > Hi, > > > 通过sql-client执行flink sql,connector选择filesystem,会出现如下报错 > java.lang.ClassNotFoundException: > org.apache.flink.table.planner.delegation.ParserFactory > > > Flink SQL> CREATE TABLE t1 ( > > a

Re: 请教下flink的提交方式

2022-07-04 文章 Weihua Hu
Hi, 根据你的描述你应该使用的 session cluster,并通过命令行提交作业,这种情况下的确只能在日志中看到 job id,并且级别的是 INFO. 可以尝试通过 RestAPI 提交任务[1],这种方式会返回 JobID。但是整体提交流程改动比较大,建议把 client 侧的日志级别调整成 INFO,不会打印非常多的日志 [1] https://nightlies.apache.org/flink/flink-docs-master/docs/ops/rest_api/#jars-jarid-run Best, Weihua On Mon, Jul 4, 2022 at

Re: Re: 来自潘明文的邮件

2022-06-28 文章 Weihua Hu
可以通过 FLINK ui 查看两个 SINK 是否 chain 在同一个 Task 内,不过可以简单认为两个 sink 是并行的 Best, Weihua On Tue, Jun 28, 2022 at 6:30 PM 潘明文 wrote: > HI 您好, > > > 我的就是一个源同时写入HBASE SINK,和HBASE SINK.。 > > > > > > > > > > > > > > > 在 2022-06-27 23:54:33,"Weih

Re: IDEA尝试编译最新flink源码报错

2022-06-28 文章 Weihua Hu
Hi, 图片还是挂了,可以尝试用一些图床工具,贴链接到邮件里。 Best, Weihua On Tue, Jun 28, 2022 at 5:21 PM Howie Yang wrote: > 刚才好像图片挂了 > > 补充报错文字内容: > > > flink\flink-rpc\flink-rpc-akka\src\main\java\org\apache\flink\runtime\rpc\akka\RobustActorSystem.java:92:56 > > java: 无法将类 scala.Option中的方法 getOrElse应用到给定类型; > > 需要:

Re: flink on k8s的application模式

2022-06-28 文章 Weihua Hu
Hi, 图片看不到了,是不是在Main 方法中调用了两次 env.execute 呢?可以提供下日志 Best, Weihua On Tue, Jun 28, 2022 at 8:52 PM 陈卓宇 <2572805...@qq.com.invalid> wrote: > > flink版本:1.13.1 > 提交flink on k8s的application模式,提交完成发现webui的Running Job有两个,跟session模式非常像 > 截图在附件 >

Re: 来自潘明文的邮件

2022-06-27 文章 Weihua Hu
Hi, 图片看不到了,正常来说做个 Sink 算子之间是没有执行先后顺序保证的,是可以并行的。 但是如果多个 sink 被 operator chain 优化在一起,单个 operator chain 内部数据是并行的 Best, Weihua On Fri, Jun 24, 2022 at 9:29 PM Lincoln Lee wrote: > Hi, >邮件中直接贴图片无法正常看到,可以发下文本 > > Best, > Lincoln Lee > > > 潘明文 于2022年6月24日周五 16:36写道: > > > 你好,下面2个SINK

Re: 任务 cancel 失败,个别 task 一直处于 CANCELING 状态

2022-06-27 文章 Weihua Hu
Hi, Task 长时间 Cancel 失败(默认 180s)会触发 watchdog 导致 TaskManager 主动退出,并定时输出日志打印当前 Task 线程执行的 thread 信息(默认 30s 一次),可以检查下 TaskManager 的日志,找一下关键字 but is stuck in method: Best, Weihua On Mon, Jun 27, 2022 at 6:45 PM Lijie Wang wrote: > Hi, > > 1. 建议贴下完整的 TM 日志和 jstack > 2. 可以看下 GC 日志,看下 GC 是否正常 > >

Re: flink 1.10.1 flinkui 取消任务 任务一直处于cancalling中 很长时间才取消掉

2022-06-16 文章 Weihua Hu
Hi, 建议看一下 JobManager 的日志,检查下再 Canceling 时作业是在什么状态。也检查下 Task 是否使用 UDF ,在 UDF close 时是否有耗时的操作。 Best, Weihua On Thu, Jun 16, 2022 at 3:11 PM 沈保源 <757434...@qq.com.invalid> wrote: > flink 1.10.1 flinkui 取消任务 任务一直处于cancalling中 很长时间才取消掉

Re: 关于PyFlink的开发环境问题

2022-06-16 文章 Weihua Hu
Hi, 看起来是依赖缺失问题,建议参考官方教程文档跑通一个简单的示例 Table API: https://nightlies.apache.org/flink/flink-docs-master/docs/dev/python/table_api_tutorial/ DataStreamAPI: https://nightlies.apache.org/flink/flink-docs-master/docs/dev/python/datastream_tutorial/ Best, Weihua On Wed, Jun 15, 2022 at 8:35 PM Xingbo

Re: flink k8s ha

2022-06-08 文章 Weihua Hu
Hi, 删除 deployment 会将关联到这个 Deployment 的 Pod、Service、flink-conf configmap 等删除。但是 HA 相关的 configmap 没有配置 owner reference,是不会被删除的。主要目的是集群重启时可以从之前的HA 状态中恢复。更多内容参考官方文档[1] [1] https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/ha/kubernetes_ha/#high-availability-data-clean-up Best,

Re: flink webui stdout疑惑

2022-06-08 文章 Weihua Hu
进入日志是有打印的是指日志目录的 taskmanager.out 里面有内容吗? cluster 启动的时候指定日志文件了吗 Best, Weihua On Wed, Jun 8, 2022 at 4:51 PM 陈卓宇 <2572805...@qq.com.invalid> wrote: > 您好: > flink版本:1.13.1 > 部署方式:on k8s > > 向flink集群提交的sql: > CREATE TABLE datagen ( > f_sequence INT, > f_random INT, > f_random_str

Re: flink rest 接口部分数据不返回,返回空,状态200正常。

2022-05-31 文章 Weihua Hu
Hi, yidan /watermark 是通过 Flink 内部 metric 进行采集的,为了防止每次 api 请求都进行 metric query,Flink 在内部实现了缓存机制,真实 query 的间隔可以通过参数[1] 控制,默认是 10s。 在Flink 内部查询 metric 时,如果失败会保存空记录,体现到 API 上就是返回了空的 list,可以尝试开启 DEBUG 日志来确认是否是由于 query metric 失败导致的 [1] metrics.fetcher.update-interval Best, Weihua On Fri, May 20, 2022

Re: Flink异步IO使用问题

2022-05-31 文章 Weihua Hu
Hi, 我在 ide 中尝试没有复现该问题,是可以使用 List 的。你代码中的 goodsDetailPage 是如何定义的? Best, Weihua On Thu, May 26, 2022 at 8:59 PM lxk7...@163.com wrote: > 重发下图 > > https://sm.ms/image/12XQHAOZdYoqraC > https://sm.ms/image/zJ2gfmxvSc85Xl7 > > > > lxk7...@163.com > > 发件人: lxk7...@163.com > 发送时间: 2022-05-26 20:54

Re: s3p 如果在本地调试

2022-05-19 文章 Weihua Hu
Hi, 你是在 IDEA 中运行吗?我增加相关的 pom 依赖后在 wordcount 中可以正常运行,可以 idea maven reload project 试试 Best, Weihua > 2022年5月19日 下午4:05,z y xing 写道: > > 各位好: > 了解实际运行是要复制jar到plugin下,但是调试的话用该怎么初始化s3p这个文件系统了? > > flink版本 1.14,win10 > 项目通过flink-quick-start创建,在pom中添加了如下依赖 > > > org.apache.flink >

Re: flink on k8s native开启ha后根据sp启动任务报错找不到job id 0000

2022-05-17 文章 Weihua Hu
Hi, shimin 用的哪个版本的 Flink?提交命令是什么呢? Best, Weihua > 2022年5月17日 下午1:48,shimin huang 写道: > > flink on native k8s根据savepoint停止任务后在根据savepoint启动任务报错找不到job > 错误堆栈如下: > java.util.concurrent.ExecutionException: > org.apache.flink.runtime.messages.FlinkJobNotFoundException: Could not find > Flink job

Re: CheckPoint Dir 路径下引发的一些问题

2020-06-04 文章 Weihua Hu
HI, Px New 1. Checkpoint 保存数量可以通过参数: state.checkpoints.num-retained 来控制,默认是 1 2. _metadata 只是一些元数据,保存了state 的句柄,其他文件是 state 数据,由各 Task 在触发 checkpoint 的时候上传。相反在恢复 checkpoint 的时候JM 读取_metadata 将相应句柄下发到 Task,Task 通过远端 HDFS 拉取对应的 state。 Best Weihua Hu > 2020年6月5日 13:36,Px New <1570118

Re: flink1.10整合hbase测试遇到的问题

2020-06-04 文章 Weihua Hu
可以尝试把依赖包 shaded 到你的 jar 包里,保证依赖的完整 Best Weihua Hu > 2020年6月3日 22:52,liunaihua521 写道: > > > > - 转发邮件信息 - > > 发件人: liunaihua521 <mailto:liunaihua...@163.com> > 发送日期: 2020年6月3日 22:18 > 发送至: user-zh-i...@flink.apache.org   > <mailto:

Re: 在yarn-session模式下怎么用rest api 触发savepoint并停止任务

2020-06-03 文章 Weihua Hu
HI, Junbao 可以参考 API 文档检查一下 HTTP method 是否正确 https://ci.apache.org/projects/flink/flink-docs-stable/monitoring/rest_api.html#jobs-jobid-stop <https://ci.apache.org/projects/flink/flink-docs-stable/monitoring/rest_api.html#jobs-jobid-stop> Best Weihua Hu > 2020年6月1日 16:21

Re: 任务假死

2020-04-27 文章 Weihua Hu
你配置的 jobmanager.execution.failover-strategy 是什么呢?如果是 region 的话,作业不会因为 Task 失败状态变为异常。 可以在WEB ui 进入作业拓扑查看单个 task 的状态 Best Weihua Hu > 2020年4月26日 11:43,yanggang_it_job 写道: > > 感谢您的回复,这个问题和您刚才给我的场景有些相似,但还是有些许差异。 > 刚才试了几种方式,图片好像都无法访问。 > 下面我详细介绍下异常情况 > 1、我的任务是从三个kafka读取,然后通过onGro

Re: 关于flink run -m yarn提交失败。flink1.9

2020-04-16 文章 Weihua Hu
Hi, dlguanyq Deployment took more than 60 seconds. —— 这个日志表示已经将 Application 提交到 Yarn 了,但是 AM 一直没有启动,这一步和perjob模式或者 yarn-session 模式关系不大。 可以用 -yd 多试几次,还是不能成功的话,需要检查下 yarn 的日志 Best Weihua Hu > 2020年4月15日 09:06,guanyq 写道: > > 使用的是perjob模式提交作业,没有使用yarn-seesion。为什么perjob模式提交有这个-yd参数会有问题,还

Re: flink-1.10.0通过run -m yarn-cluster提交任务时异常

2020-02-17 文章 Weihua Hu
Hi, amenhub 你应该是要把作业提交到 yarn 上吧。这个错误应该没有正确的加载 FlinkYarnSessionCli 导致的,这些日志不是失败的根因。可以多提供一些日志看看。 Best Weihua Hu > 2020年2月18日 10:56,amenhub 写道: > > parseHostPortAddress