RE: Flink使用Kafka作为source时checkpoint成功提交offset的机制

2020-07-28 文章 venn
checkpoint成功时就会把它的offset提交,可以看下这个类: FlinkKafkaConsumerBase 的 这个方法: notifyCheckpointComplete -Original Message- From: user-zh-return-5976-wxchunjhyy=163@flink.apache.org On Behalf Of shuwen zhou Sent: 2020年7月29日 14:24 To: user-zh@flink.apache.org Subject: Flink使用Kafka作为source时chec

FLink1.11.1整合hadoop3.0.0

2020-07-28 文章 felixzh
以 -m yarn-clsuter运行flink1.11.1的examples/streaming/SocketWindowWordCount.jar 任务正常。ncat -l 输入数据可以在taskmanager.out日志中看到。 但是,yarn 中ApplicationMaster(也就是Tracking UI)打不开flink集群的页面 提示:{"errors":["Unable to load requested file /index.html"]} 大佬遇到过吗?

Flink使用Kafka作为source时checkpoint成功提交offset的机制

2020-07-28 文章 shuwen zhou
大家好,请教一个问题, 当Flink在使用Kafka作为source,并且checkpoint开启时,提交的offset是在消息被链路最后一个算子处理之后才会把这条offset提交吗? 还是说这个消息只要从Kafka source读取后,不论链路处理到哪个算子, checkpoint成功时就会把它的offset提交呢? 另外有大神指路这段代码具体在哪个文件吗? 谢谢! -- Best Wishes, Shuwen Zhou

Re: flink 1.11 rest api saveppoint接口 异常

2020-07-28 文章 Congxian Qiu
Hi 创建了一个 Issue[1] 来跟进这个问题 [1] https://issues.apache.org/jira/browse/FLINK-18748 Best, Congxian Congxian Qiu 于2020年7月29日周三 下午1:24写道: > Hi taowang >感谢你的更新,这个地方应该是 savepoint trigger 的逻辑有问题,现在确实 > setMinPauseBetweenCheckpoints 会影响 savepoint,我创建一个 issue 来跟进一下这个问题 > > Best, > Congxian > > >

Re: flink 1.11 rest api saveppoint接口 异常

2020-07-28 文章 Congxian Qiu
Hi taowang 感谢你的更新,这个地方应该是 savepoint trigger 的逻辑有问题,现在确实 setMinPauseBetweenCheckpoints 会影响 savepoint,我创建一个 issue 来跟进一下这个问题 Best, Congxian taowang 于2020年7月29日周三 下午12:29写道: > 我再次确认了一下,可能是因为我设置了checkpoint的setMinPauseBetweenCheckpoints,所以在上一次 > checkpoint 和这个间隔之间触发 savepoint 不会生效,但是接口返回了IN_PROG

Re: flink1.11.1启动问题

2020-07-28 文章 Xintong Song
这个是 hadoop 2.x 的已知设计缺陷。 hadoop 2.x 中,container request 没有唯一的标识,且分配下来的 container 的资源和请求的资源也可能不同,为了将分下来的 container 对应到之前的 request,flink 不得不去进行归一化的计算。如果 yarn 集群 RM 和 AM 机器上的配置不一致,是有潜在风险的。hadoop 3.x 中改进了这一问题,每个 container request 都有一个 id,可以用来将分配到的 container 与之前的 request 对应起来。出于对旧版本 hadoop 的兼容性考虑,flink

Re: Sql往kafka表写聚合数据报错

2020-07-28 文章 Benchao Li
你可以用Canal或者Debezium format来写入kafka,那样就支持update和delete消息了。 op <520075...@qq.com> 于2020年7月29日周三 上午11:59写道: > 如下,想用sql直接往kafka写聚合结果,版本是1.11,请问能有什么办法解决,还是只能转换成datastream?? > > > 谢谢 > > > Exception in thread "main" org.apache.flink.table.api.TableException: > Table sink 'default_catalog.default_databa

Re: flink 1.11 rest api saveppoint接口 异常

2020-07-28 文章 taowang
我再次确认了一下,可能是因为我设置了checkpoint的setMinPauseBetweenCheckpoints,所以在上一次 checkpoint 和这个间隔之间触发 savepoint 不会生效,但是接口返回了IN_PROGRESS 的状态,我觉得这里应该是有点问题的。 原始邮件 发件人: taowang 收件人: user-zh 发送时间: 2020年7月28日(周二) 18:53 主题: Re: flink 1.11 rest api saveppoint接口 异常 是的,其实无论是否开启了unaligned checkpoint,我在调用这个接口的时候都没有 ch

Re: [DISCUSS] add a '--filename' parameter for sql-client

2020-07-28 文章 godfrey he
Yes, The pr still needs to be improved. In most cases, there are more than one statement in the sql file, so -f option should support multiple statements. however, a related PR [1] has not completed yet. [1] https://github.com/apache/flink/pull/8738 Best, Godfrey Jun Zhang 于2020年7月29日周三 上午10:17

Flink提交任务时可以使用-djs参数,但没有看到相关介绍

2020-07-28 文章 zhoujibo
提交任务时可以使用-dis 传递依赖的jar包,如下命令: ./bin/flink run -c com.test.TestData -p 2 -djs $(echo ./test/libs/*.jar | tr ' ' ',') ./test/test-data-1.0.jar 但-djs这个参数官网上貌似没有相关介绍,参数有什么文档介绍吗

Sql??kafka????????????????

2020-07-28 文章 op
??sql??kafka??1.11??datastream Exception in thread "main" org.apache.flink.table.api.TableException: Table sink 'default_catalog.default_database.mvp_rtdwb_user_business' doesn't support consuming update changes which is

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

2020-07-28 文章 Dream-底限
hi 鱼子酱、 我当初这样用的时候状态也不清理(子查询+时间窗口+union),后来把时间窗口改成全局group函数,union改成订阅topic列表后,设置状态过期时间状态才清理。。。 后来看资料有的说分区数据不均衡导致水印不推进的话可能导致这种状态不清理的问题,但是我感觉不是水印导致的,水印导致的窗口应该不触发计算吧,感觉这里面有些bug,需要专业人士定位一下 鱼子酱 <384939...@qq.com> 于2020年7月29日周三 上午9:53写道: > 您好: > > 我按照您说的试了看了一下watermark, > 发现可以 正常更新,相关的计算结果也没发现问题。 >

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

2020-07-28 文章 Benchao Li
这个问题我建议先区分下是SQL operator里面没有清理state,还是state backend本身没有清理state。 这样你是否可以尝试下其他的state backend,以及非增量模式的rocksdb等?如果在所有state backend场景下, state都是一直上涨的,那有可能某个SQL operator里面对state的清理可能有些问题。 鱼子酱 <384939...@qq.com> 于2020年7月29日周三 上午9:47写道: > 您好: > > 我按照您说的试了看了一下watermark, > 发现可以 正常更新,相关的计算结果也没发现问题。 > 1. 刚刚截了

Re: 解析kafka的mysql binlog问题

2020-07-28 文章 admin
直接转成string1.11版本还不支持,会在1.12修复,参考jira[1] [1]https://issues.apache.org/jira/browse/FLINK-18002 > 2020年7月28日 下午5:20,air23 写道: > > 你好 收到。谢谢。 因为这个topic 是有很多表的binlog的。所以解析成array 也是不行的。长度和字段都不一致 > 另外想请教下 1.11 版本 datastream 可以转换为 blink的table吗。 看到例子

Re: [DISCUSS] add a '--filename' parameter for sql-client

2020-07-28 文章 Jun Zhang
hi,godfrey: Thanks for your reply 1. I have seen the -u parameter, but my sql file may not only include 'insert into select ', but also SET, DDL, etc. 2. I may not have noticed this issue. I took a look at this issue. I think this issue may have some problems. For example, he finally called t

flink1.11 可以使用processtime开窗,但是无法使用eventtime开窗

2020-07-28 文章 111
您好,请教一个问题,谢谢: 很简单的json, {"num":100,"ts":1595949526874,"vin":""} {"num":200,"ts":1595949528874,"vin":""} {"num":200,"ts":1595949530880,"vin":""} {"num":300,"ts":1595949532883,"vin":""} {"num":100,"ts":1595949534888,"vin":""} {"num":300,"ts":1595949536892,"vin":""} 我就想使用

Re: [DISCUSS] add a '--filename' parameter for sql-client

2020-07-28 文章 godfrey he
hi Jun, Currently, sql client has supported -u option, just like: ./bin/sql-client.sh embedded -u "insert_statement". There is already a JIRA [1] that wants to support -f option [1] https://issues.apache.org/jira/browse/FLINK-12828 Best, Godfrey Jun Zhang 于2020年7月29日周三 上午9:22写道: > I want to

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

2020-07-28 文章 鱼子酱
您好: 我按照您说的试了看了一下watermark, 发现可以 正常更新,相关的计算结果也没发现问题。 1. 刚刚截了图在下面,时间因为时区的问题-8就正常了 2. checkpoint里面的信息,能看出大小是线性增长的,然后主要集中在2个窗口和group里面。

[DISCUSS] add a '--filename' parameter for sql-client

2020-07-28 文章 Jun Zhang
I want to execute some flink sql batch jobs regularly, such as 'insert into select .', but I can't find a suitable method so far, so reference hive, I changed the source code and add a '--filename' parameter so that we can execute a sql file. like this: /home/flink/bin/sql-client.sh embed

Re: Flink SQL 解析复杂(嵌套)JSON的问题 以及写入到hive类型映射问题

2020-07-28 文章 Leonard Xu
Hello > 问题是: > 如果json array 里还有一个array 也是继续嵌套定义吗? 这个数据是要写入到hive,该怎么映射,array > ,怎么映射成Hive类型,比如映射成array,这种情况的json该如何处理? 有没有什么办法直接把json > array,直接映射成array,试了一下发现不行,该如何处理这种复杂类型。 Json format有一个issue在解这个问题[1],可以把jsonNode强制转成 string, 1.12里会支持,可以看下. Best Leonard [1] https://issues.apache.org/jira/br

Re: flink作业提交到集群执行异常

2020-07-28 文章 hechuan
定位到问题了,我这里是scala的版本不一致导致的 部分maven引用的2.11,部分引用的2.12,统一版本后这个报错就不存在了 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink SQL 解析复杂(嵌套)JSON的问题 以及写入到hive类型映射问题

2020-07-28 文章 kandy.wang
json格式,如果是一个json array 该如何定义 schema,array里还可能存在嵌套json array的情况。 如数据: {"user_info":{"user_id":"0111","name":"xxx"},"timestam":1586676835655,"id":"10001","jsonArray":[{"name222":"xxx","user_id222":"0022"},{"name333":"name","user_id222":"user"},{"cc":"xxx333","user_id444":"user","name444"

回复:flink 聚合 job 重启问题

2020-07-28 文章 郑斌斌
需要通过checkpoint恢复启动才没有问题,不知道为什么是这样 -- 发件人:RS 发送时间:2020年7月27日(星期一) 15:50 收件人:user-zh@flink.apache.org ; 郑斌斌 主 题:Re:flink 聚合 job 重启问题 伪代码发下看看?看下jdbc sink的配置,是不是支持删除记录,更新的时候旧记录被删除了 在 2020-07-27 11:33:31,"郑斌斌" 写道: >hi all : > > 请

Re: flink 1.11 rest api saveppoint接口 异常

2020-07-28 文章 taowang
是的,其实无论是否开启了unaligned checkpoint,我在调用这个接口的时候都没有 checkpoint 在做。 而且等待的话,我认为如果有正在做的,那么正在做的 checkpoint执行完成之后新的 savepoint 应该会开始执行吧,但我看到的现象是等了半个小时依旧是 IN_PROGRESS状态,正常状态下,一个 checkpoint 的执行时间也就几秒钟,正常的 savpoint 执行完成最多也只需要几分钟。 原始邮件 发件人: Congxian Qiu 收件人: user-zh 发送时间: 2020年7月28日(周二) 18:09 主题: Re: fli

Re: flink 1.11 rest api saveppoint接口 异常

2020-07-28 文章 Congxian Qiu
Hi 开启 unalign checkpoint 的情况下,如果有 checkpoint 正在做的话,那么 savepoint 会等待的[1],但是把 unaligned checkpoint 关闭之后,还有这个现象看上去不太符合预期。关闭之后这种现象出现的时候,也有 checkpoint 正在做吗? [1] https://issues.apache.org/jira/browse/FLINK-17342 Best, Congxian taowang 于2020年7月28日周二 下午5:05写道: > 在升级了 flink 1.11之后,我在使用的时候发现 rest api

Flink操作 kafka ,hive遇到kerberos过期

2020-07-28 文章 lydata
请问下 Flink操作 kafka ,hive遇到kerberos过期 有什么解决方法吗?

Re: flink作业提交到集群执行异常

2020-07-28 文章 hechuan
Hi, 遇到了同样的问题,请教下是如何解决的? 编译jar包为单独的jar,非jar-with-dependencies的方式,依赖的jar包放到了自定义一个目录lib1 修改了bin/flink脚本,CC_CLASSPATH追加了自定义jar目录lib1,lib1目录下能找到这个类 $ grep org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer * Binary file flink-sql-connector-kafka_2.12-1.11.1.jar matches flink/lib目录和自定义的lib目录

Re:Re: Re: Re: 解析kafka的mysql binlog问题

2020-07-28 文章 air23
你好 收到。谢谢。 因为这个topic 是有很多表的binlog的。所以解析成array 也是不行的。长度和字段都不一致 另外想请教下 1.11 版本 datastream 可以转换为 blink的table吗。 看到例子 好像都是 useOldPlanner 来转的, 但是我想用blink 写入到hive。 我这边需求 就是通过binlog - flink - hive。 不同的mysql表写入到不同hive表。 在 2020-07-28 16:02:18,"Jark Wu" 写道: >因为 "data" 是一个复杂结构,不是单纯的 string 结构

Re:回复: Re: Re: 解析kafka的mysql binlog问题

2020-07-28 文章 air23
你好 使用的是1.11.1版本的 在 2020-07-28 16:02:30,"明启 孙" <374060...@qq.com> 写道: >你的flink什么版本 > >发送自 Windows 10 版邮件应用 > >发件人: air23 >发送时间: 2020年7月28日 15:36 >收件人: user-zh@flink.apache.org >主题: Re:Re: Re: 解析kafka的mysql binlog问题 > >格式如下 是canal解析的binlog 格式 data下面是一个数组样式。就是用string取不出来 其他都可以取的出来

Re:Re: 解析kafka的mysql binlog问题

2020-07-28 文章 air23
你好。 我猜测 是有可能是这个问题。但是我这个topic是 读取的一个库的binlog。有很多表 所以ARRAY> 这种 里面 不是固定的 所以我想用datastream 解析 然后在根据表不同 解析成不同的table。但是发现blinkplaner 好像不可以datastream 转换为table。或者是我没有发现这个例子 谢谢 在 2020-07-28 16:05:55,"admin" <17626017...@163.com> 写道: >data格式不是string,可以定义为ARRAY> > >> 2020年7月28日 下午3:35,air2

Re: flink1.10.1/1.11.1 使用sql 进行group 和 时间窗口 操作后 状态越来越大

2020-07-28 文章 Congxian Qiu
Hi SQL 部分不太熟,根据以往的经验,对于 event time 情况下 window 的某个算子 state 越来越大的情况,或许可以检查下 watermark[1] [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/zh/monitoring/debugging_event_time.html Best, Congxian 鱼子酱 <384939...@qq.com> 于2020年7月28日周二 下午2:45写道: > Hi,社区的各位大家好: > 我目前生产上面使用的是1.8.2版本,

flink 1.11 rest api saveppoint接口 异常

2020-07-28 文章 taowang
在升级了 flink 1.11之后,我在使用的时候发现 rest api 的 /jobs/:jobid/savepoints 接口表现有点异常: 在 flink 1.10 时:当请求该接口后,在 flink ui 可以看到 savepoint 被触发,/jobs/:jobid/savepoints/:triggerid 返回IN_PROGRESS,等 savepoint 成功之后jobs/:jobid/savepoints/:triggerid返回COMPLETED。 但是在flink 1.11中:经常出现(不是必现,但是概率也不低) /jobs/:jobid/savepoints 接

Re: 解析kafka的mysql binlog问题

2020-07-28 文章 admin
data格式不是string,可以定义为ARRAY> > 2020年7月28日 下午3:35,air23 写道: > > 格式如下 是canal解析的binlog 格式 data下面是一个数组样式。就是用string取不出来 其他都可以取的出来 > > > { >"data":[ >{ >"op_id":"97037138", >"order_id":"84172164" >} >], >"database":"order_11", >"es":1595720375000

Re: Re: Re: 解析kafka的mysql binlog问题

2020-07-28 文章 Jark Wu
因为 "data" 是一个复杂结构,不是单纯的 string 结构。所以1.11为止,这个功能还不支持。 1.12 中已经支持读取复杂结构为 string 类型了。 Best, Jark On Tue, 28 Jul 2020 at 15:36, air23 wrote: > 格式如下 是canal解析的binlog 格式 data下面是一个数组样式。就是用string取不出来 其他都可以取的出来 > > > { > "data":[ > { > "op_id":"97037138", > "order_id":

回复: Re: Re: 解析kafka的mysql binlog问题

2020-07-28 文章 明启 孙
你的flink什么版本 发送自 Windows 10 版邮件应用 发件人: air23 发送时间: 2020年7月28日 15:36 收件人: user-zh@flink.apache.org 主题: Re:Re: Re: 解析kafka的mysql binlog问题 格式如下 是canal解析的binlog 格式 data下面是一个数组样式。就是用string取不出来 其他都可以取的出来 { "data":[ { "op_id":"97037138", "order_id":"84172164"

Re:Re: Re: 解析kafka的mysql binlog问题

2020-07-28 文章 air23
格式如下 是canal解析的binlog 格式 data下面是一个数组样式。就是用string取不出来 其他都可以取的出来 { "data":[ { "op_id":"97037138", "order_id":"84172164" } ], "database":"order_11", "es":1595720375000, "id":17469027, "isDdl":false, "mysqlType":{ "op_id":"int