Re: 应用初始化HiveCatalog出错 "URI is not hierarchical"

2021-06-10 文章 Rui Li
你好, 看一下jar里面是不是有hive-site.xml文件呢? On Fri, Jun 11, 2021 at 10:37 AM casel.chen wrote: > 我在spring boot应用中使用HiveCatalog展示库和表信息,通过传入hive参数初始化HiveCatalog时抛如下错误 > hiveCatalog = new HiveCatalog(hiveConfig.getCatalogName(), > hiveConfig.getDefaultDatabase(), hiveConfig.getHiveConfDir()); >

Re: flink sql维表延迟join如何实现?

2021-06-10 文章 chenchencc
使用事件时间就可以延时 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 JasonLee
hi 增大一下 taskmanager.memory.jvm-overhead 的内存试试 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql维表延迟join如何实现?

2021-06-10 文章 Smile
我们之前试过用 session window 来实现,只要流数据有唯一键就可以按唯一键开 session window 来把整个流(而不是关联不上的部分数据)延迟,能凑合用 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 Smile
哪个版本的 Flink 啊,我们最近用 1.12.2 也有出现内存超限的情况,不过是 RocksDB,Savepoint 的时候内存增大。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Task Container 被Kill, Managed memory使用情况查看

2021-06-10 文章 Jason Lee
各位社区的伙伴大家好 目前我们在使用Flink SQL 开发任务过程中遇到一个问题,有比较大状态的任务在运行一段时间后Task Container会由于使用申请内存过多被Yarn集群Kill掉。 针对这个问题我们任务可能是在Checkpoint时候状态过大引起的,因此我们调整了State ttl,也是增量Checkpoint,之后还是会出现类似情况,我们只能通过增加并发和内存来保证任务运行,但是这回造成了很大的资源浪费,因为平时查看任务的堆内存使用并不多,所以我们在考虑是不是Managed memory不足导致的,因为Managed memory 负责RocksDB,

Re:flink sql cdc数据同步至mysql

2021-06-10 文章 东东
1、有必要考虑其他方案了,如果是单表存量数据很大,且不说下游sink的问题,单单是snapshot阶段可能耗时过长,如果一旦失败,就只能整体重来(因为此时不能做checkpoint),任务的成功率就很值得怀疑(当然主要还看存量数据到底有多大)。另外,如果能获取全局锁还好,如果无法获取,则会锁表直到存量数据全部拷贝完毕,基本等于业务down掉。 2、如果只是简单的insert into xxx select xxx,就不用担心,runtime在遇到上下游并行度不一致时,如果有主键会按照主键hash的。 在 2021-06-08 14:05:17,"casel.chen" 写道:

Flink的web-ui卡顿问题

2021-06-10 文章 yidan zhao
工作中遇到的各种web-ui现象: 0 web-ui正常。 1 web-ui卡顿,进入页面时候白色,一直转圈。看控制台发现network部分对应请求一直pending,请求一直不返回。 2 web-ui卡顿,转圈很久突然一瞬间展示,如何刷新就继续转圈进入白色页面了。 3 web-uI基本正常使用,但是很卡顿。 4 任务提交、取消、主动触发保存点等case下,web-ui卡顿严重,过会恢复。 5 如上几个case中,有时候伴随卡顿之后进入选举,然后重新进入循环(可能正常也可能继续卡顿继续导致JM进程失败导致重启拉起进入选举等)。

Re: Flink1.13.1启动后web-ui查看taskmanager信息失败并报错,稳定复现。

2021-06-10 文章 yidan zhao
目前除了此问题外,还发现不少升级1.13.1后的问题。都是些比较奇怪的。具体遇到一个提交任务后,一直处于created状态的问题。 此外最麻烦的还是如上说的那个,后端一直报错,我集群30容器,每次都得想办法找到leader,否则都没办法看具体日志。 yidan zhao 于2021年6月10日周四 下午3:49写道: > > Hi。没人遇到过这个问题嘛。我感觉我都稳定复现的。 > > yidan zhao 于2021年6月10日周四 下午1:20写道: > > > >

Re: 回复: flinksql ttl不生效

2021-06-10 文章 chenchencc
嗯嗯,我这边排查看到是我是用temporary left join 维度表,使用事件时间,但是我期望维度表只保留3小时。目前使用on加上时间范围,貌似不生效,导致join的状态不断增加。有什么方式能处理吗,保留维度表一段时间数据。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

应用初始化HiveCatalog出错 "URI is not hierarchical"

2021-06-10 文章 casel.chen
我在spring boot应用中使用HiveCatalog展示库和表信息,通过传入hive参数初始化HiveCatalog时抛如下错误 hiveCatalog = new HiveCatalog(hiveConfig.getCatalogName(), hiveConfig.getDefaultDatabase(), hiveConfig.getHiveConfDir()); hiveCatalog.open(); 在spring boot应用所在机器上我只在/opt/hive/conf目录下准备了hive-site.xml,还缺什么配置么? 2021-06-11

Temporal table join事件时间

2021-06-10 文章 chenchencc
大佬们好,想问下Temporal table join使用事件时间,右侧维度表有什么方式能只保留一段时间吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink????????-??????????????????????????????????????????

2021-06-10 文章 ??????
keyed??trigger

Flink state evolution with avro

2021-06-10 文章 casel.chen
Is there any live code example about flink state evolution with avro? Thanks!

Re:Re: flink sql cdc数据同步至mysql

2021-06-10 文章 casel.chen
针对现在flink sql cdc下游并行度无法修改问题,是否可以分两步实现?谢谢! 1. flink sql cdc发到下游kafka,通过 upsert kafka connector,以debezium或canal格式,kafka topic开多个分区 2. 再从kafka消费,通过flink sql同步到最终mysql库 在 2021-06-08 19:49:40,"Leonard Xu" 写道: >试着回答下这两个问题。 > >> flink 1.12的jdbc connector不支持 sink.parallism

flink sql cdc支持额外字段问题

2021-06-10 文章 casel.chen
flink sql cdc写入kafka,期望kafka消息带上数据库database,表table,变更时间和变更标记+I/-U/+U/-D这几个特殊字段,目前来看是做不到的,对吗?

回复: 退订

2021-06-10 文章 frank . liu
退订     此致 敬礼 发件人: 金晓龙 发送时间: 2021年6月9日 14:27 收件人: user-zh@flink.apache.org 主题: 退订 退订

关于CEP处理事件的问题

2021-06-10 文章 sherlock zw
大佬们,请教一下,我现在使用CEP时遇到一个问题,我现在的场景是需要输入三次相同字符串打印一次匹配的List集合,但是遇到的问题是每次都需要输入第四条数据才会触发Pattern的select函数去打印List。 具体实现代码如下: public class Run3 { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env =

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 文章 yidan zhao
我也尝试了一波,不过比较奇怪的是,我程序测试log4可以写kafka OK。但是flink就是写不进去。 yidan zhao 于2021年6月10日周四 下午4:18写道: > > @yujianbo hi。可以把你log4j的配置发出来嘛,我也参考参考。 > > yujianbo <15205029...@163.com> 于2021年6月10日周四 下午3:31写道: > > > > 大佬,能告知一下吗?我目前知道lay out有这么多的参数可以配置,哪个参数能区分jm或者tm的日志呢: > > > > 具体的格式化说明: > >

Flink web UI Kafka相关指标值为空

2021-06-10 文章 Num
请教下,有个flink-kafka的应用,消费和sink都正常,但是唯独flink web ui上kafka指标能查询到,但图表显示空值【-】,其他非kafka的指标数据却显示正常,原本以为是jar冲突问题,但是换来换去也没有用,谢谢 Flink 1.11.2 on yarn

Re: Re:FlinkSQL join 维表后一定会变成 upsert流吗?

2021-06-10 文章 WeiXubin
感谢你的回答,我这边看了官网目前 join 一共可以分为 Regular Joins 、 Interval Joins 以及 Temporal Joins 三大类。 我上面问题所述的确是采用了 Regular Joins 的方式。 之后我也尝试使用了 Lookup Join 但发现其最后也是转为 INSERT INTO ON DUPLICATE KEY UPDATE 的执行语句, 并不是我所期望的纯 append 模式 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于 LEFT JOIN DimTable FOR SYSTEM_TIME AS OF 的异常求教!

2021-06-10 文章 WeiXubin
已解决,问题在于 Kafka 不是直接 join 维表,而是先和 UDTF join,之后整体才与维表 Join。 所以之前起别名的位置有误。导致找不到字段、改造如下: 先前写法: INSERT INTO sinktable select // 省略字段 from KafkaTable,LATERAL TABLE(RequestBodyColumnToRow(message, 'uid,game_id(BIGINT),platform' )) *as k* LEFT JOIN DimTable FOR SYSTEM_TIME AS OF k.record_time as d

关于 LEFT JOIN DimTable FOR SYSTEM_TIME AS OF 的异常求教!

2021-06-10 文章 WeiXubin
异常:column 'record_time' not found in table 'k' 异常描述:KafkaTable k 表在与维表进行 look up join 时定义了别名,之后报在 k 表中没有定义 record_time 字段。 Flink 版本: 1.12.2 // Source 表 CREATE TABLE KafkaTable ( message STRING, record_time TIMESTAMP(3) METADATA FROM 'timestamp' ) WITH ( 'connector' = 'kafka', ); //

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 文章 yidan zhao
@yujianbo hi。可以把你log4j的配置发出来嘛,我也参考参考。 yujianbo <15205029...@163.com> 于2021年6月10日周四 下午3:31写道: > > 大佬,能告知一下吗?我目前知道lay out有这么多的参数可以配置,哪个参数能区分jm或者tm的日志呢: > > 具体的格式化说明: > %p:输出日志信息的优先级,即DEBUG,INFO,WARN,ERROR,FATAL。 > %d:输出日志时间点的日期或时间,默认格式为ISO8601,也可以在其后指定格式,如:%d{/MM/dd >

回复:检查点失败 Checkpoint Coordinator is suspending 。

2021-06-10 文章 Jason Lee
您好, Checkpoint Coordinator is suspending是那些等待执行的checkpoint检查点因为任务发生异常在停止顶定时任务的stopCheckpointScheduler()方法中被释放掉,所以日志中这个异常了; 具体什么问题害得详细看下是什么原因导致任务异常,是脏数据未处理异常还是怎样的,可能需要具体查看一下TM和JM日志,如果您这边发现具体原因可以同步一下 Best, JasonLee | | JaosnLee | | jasonlee1...@163.com | 签名由网易邮箱大师定制 在2021年06月10日 15:39,yidan

Re: Flink1.13.1启动后web-ui查看taskmanager信息失败并报错,稳定复现。

2021-06-10 文章 yidan zhao
Hi。没人遇到过这个问题嘛。我感觉我都稳定复现的。 yidan zhao 于2021年6月10日周四 下午1:20写道: > > 如题,今天从1.12升级到1.13.1,启动standalone集群后。找到web-ui,点taskmanagers,出现列表,然后点任意taskmanager进行查看信息。右上角弹提示Internal > server error。查看了该JM的日志,后面附,主要报错是 Caused by: > java.io.NotSerializableException: >

flink维度表一直没有数据,主表left join不输出

2021-06-10 文章 chenchencc
大佬们好, 想问下主表left join cdc维度表数据, 当维度表数据很久没到导致水位跟不上主表的时候,有什么方式吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

检查点失败 Checkpoint Coordinator is suspending 。

2021-06-10 文章 yidan zhao
如题,Checkpoint Coordinator is suspending 这种检查点失败是什么情况,timeout那种我理解是检查点执行时间长,超时了。但是 Checkpoint Coordinator is suspending 这个是什么含义呢?

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 文章 yujianbo
大佬,能告知一下吗?我目前知道lay out有这么多的参数可以配置,哪个参数能区分jm或者tm的日志呢: 具体的格式化说明: %p:输出日志信息的优先级,即DEBUG,INFO,WARN,ERROR,FATAL。 %d:输出日志时间点的日期或时间,默认格式为ISO8601,也可以在其后指定格式,如:%d{/MM/dd HH:mm:ss,SSS}。 %r:输出自应用程序启动到输出该log信息耗费的毫秒数。 %t:输出产生该日志事件的线程名。

Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 Jason Lee
各位社区伙伴大家好 首先描述一下我的问题:最近我们发现有几个任务平时运行将近一个月都没发生问题,最近在进行checkpoint的时候经常失败,然后一直容错恢复重启,我们通过日志查看,发现某个TM在进行checkpoint的时候内存使用过大导致内存不够被Kill掉了; 报错日志: java.lang.Exception: Container [pid=24859,containerID=container_e01_1618927404581_0181_01_002010] is running beyond physical memor y limits. Current

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 文章 zilong xiao
hi,yidan 可以在layout中读取系统环境变量作区分 祝好~ yidan zhao 于2021年6月10日周四 下午2:27写道: > 我觉得还有个头疼的吧,你很多机器,怎么区分每个机器还得。哪个机器的JM/TM的日志。 > > yujianbo <15205029...@163.com> 于2021年6月10日周四 下午1:48写道: > > > > log4j可以,log4j2也可以,现在头疼已经实现打kafka,不知道怎么区分这两边的日志 > > > > > > > > -- > > Sent from:

Re: JDBC异步lookup join有FLIP或者迭代计划吗?

2021-06-10 文章 zilong xiao
想贡献+1,关注中... Ada Luna 于2021年6月10日周四 下午2:42写道: > 好的后续我会在这个ticket简述方案。 > > Lin Li 于2021年6月10日周四 下午12:02写道: > > > > 社区之前有过基于 legacy source 的 pr > > https://issues.apache.org/jira/browse/FLINK-14902, 不过目前没有进展, 欢迎贡献! > > cc Guowei Ma > > > > > > Luna Wong 于2021年6月10日周四 上午11:16写道: > > > > >

flink1.13.1在sql文件和flink-conf.yaml文件中不生效

2021-06-10 文章 Fei Han
大家好: flink1.13.1在sql文件和flink-conf.yaml文件中不生效。我的sql文件内容如下: 尝试多次,数据无法写入iceberg。hive版本2.3.6

关于1.13中通过颜色等反馈的反压体验

2021-06-10 文章 yidan zhao
目前初步体验下来,还可以。我明显可以看到窗口出发时机,窗口后续的算子瞬间进入红色,然后几秒后恢复。 此外,非窗口出发时期的话,目前发现跟着KafkaSource算子之后的那个节点相对是busy值最高的,这个我理解为我kafka数据不断进入,所以对于source后直接跟的算子数据比较不断,所以一直处于有输入可用状态。 ——不过,我目前采用的是全部算子相同并行度的策略,因为为了让每个算子都平均分配到全部TaskManager机器上。目前任何一个算子并行度设置不一致,flink就无法保证分发task的时候每个task都在TM之间均衡。

Re: JDBC异步lookup join有FLIP或者迭代计划吗?

2021-06-10 文章 Ada Luna
好的后续我会在这个ticket简述方案。 Lin Li 于2021年6月10日周四 下午12:02写道: > > 社区之前有过基于 legacy source 的 pr > https://issues.apache.org/jira/browse/FLINK-14902, 不过目前没有进展, 欢迎贡献! > cc Guowei Ma > > > Luna Wong 于2021年6月10日周四 上午11:16写道: > > > 如果没有我用VertX和Druid连接池贡献下代码。这个要在dev邮件列表里讨论是吗 > >

回复: flinksql ttl不生效

2021-06-10 文章 Jason Lee
checkpoint文件大小不断增加的原因是由于任务的状态不断累积导致的;所以如果任务状态很大的情况下,比如Group by 的字段过多等等,可以考虑开启增量state.backend.incremental,同时可以考虑任务的类型,如果任务是按天进行聚合指标的情况可以考虑设置状态过期清理时间idlestate.retention.time为一天等方式来防止chekcpoint保留状态数据的不断增加,或者增加速度过快导致任务的内存不够而被Kill掉; 但是看您的描述,并不是设置State

Re: 回撤流的窗口统计

2021-06-10 文章 Lincoln Lee
你好, 目前的 tumble window 还不支持输入是更新流, 可以用 group by ts 配合 state ttl 来实现。 'table.exec.state.ttl' 是作业级别设置, 当前 sql 还不支持更细粒度的 state ttl 设置。如果有具体的想法,可以在 flink dev 邮件列表发起讨论或提交 jira issue,欢迎贡献社区! lincoln lee casel.chen 于2021年6月5日周六 下午2:24写道: > 上游是binlog cdc消费获取的回撤流,现要使用flink

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 文章 yidan zhao
我觉得还有个头疼的吧,你很多机器,怎么区分每个机器还得。哪个机器的JM/TM的日志。 yujianbo <15205029...@163.com> 于2021年6月10日周四 下午1:48写道: > > log4j可以,log4j2也可以,现在头疼已经实现打kafka,不知道怎么区分这两边的日志 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/