Re: 应用初始化HiveCatalog出错 "URI is not hierarchical"

2021-06-10 文章 Rui Li
你好, 看一下jar里面是不是有hive-site.xml文件呢? On Fri, Jun 11, 2021 at 10:37 AM casel.chen wrote: > 我在spring boot应用中使用HiveCatalog展示库和表信息,通过传入hive参数初始化HiveCatalog时抛如下错误 > hiveCatalog = new HiveCatalog(hiveConfig.getCatalogName(), > hiveConfig.getDefaultDatabase(), hiveConfig.getHiveConfDir()); > hiveCatalog.

Re: flink sql维表延迟join如何实现?

2021-06-10 文章 chenchencc
使用事件时间就可以延时 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 JasonLee
hi 增大一下 taskmanager.memory.jvm-overhead 的内存试试 - Best Wishes JasonLee -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink sql维表延迟join如何实现?

2021-06-10 文章 Smile
我们之前试过用 session window 来实现,只要流数据有唯一键就可以按唯一键开 session window 来把整个流(而不是关联不上的部分数据)延迟,能凑合用 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 Smile
哪个版本的 Flink 啊,我们最近用 1.12.2 也有出现内存超限的情况,不过是 RocksDB,Savepoint 的时候内存增大。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Task Container 被Kill, Managed memory使用情况查看

2021-06-10 文章 Jason Lee
各位社区的伙伴大家好 目前我们在使用Flink SQL 开发任务过程中遇到一个问题,有比较大状态的任务在运行一段时间后Task Container会由于使用申请内存过多被Yarn集群Kill掉。 针对这个问题我们任务可能是在Checkpoint时候状态过大引起的,因此我们调整了State ttl,也是增量Checkpoint,之后还是会出现类似情况,我们只能通过增加并发和内存来保证任务运行,但是这回造成了很大的资源浪费,因为平时查看任务的堆内存使用并不多,所以我们在考虑是不是Managed memory不足导致的,因为Managed memory 负责RocksDB, 我们

Re:flink sql cdc数据同步至mysql

2021-06-10 文章 东东
1、有必要考虑其他方案了,如果是单表存量数据很大,且不说下游sink的问题,单单是snapshot阶段可能耗时过长,如果一旦失败,就只能整体重来(因为此时不能做checkpoint),任务的成功率就很值得怀疑(当然主要还看存量数据到底有多大)。另外,如果能获取全局锁还好,如果无法获取,则会锁表直到存量数据全部拷贝完毕,基本等于业务down掉。 2、如果只是简单的insert into xxx select xxx,就不用担心,runtime在遇到上下游并行度不一致时,如果有主键会按照主键hash的。 在 2021-06-08 14:05:17,"casel.chen" 写道: >fl

Flink的web-ui卡顿问题

2021-06-10 文章 yidan zhao
工作中遇到的各种web-ui现象: 0 web-ui正常。 1 web-ui卡顿,进入页面时候白色,一直转圈。看控制台发现network部分对应请求一直pending,请求一直不返回。 2 web-ui卡顿,转圈很久突然一瞬间展示,如何刷新就继续转圈进入白色页面了。 3 web-uI基本正常使用,但是很卡顿。 4 任务提交、取消、主动触发保存点等case下,web-ui卡顿严重,过会恢复。 5 如上几个case中,有时候伴随卡顿之后进入选举,然后重新进入循环(可能正常也可能继续卡顿继续导致JM进程失败导致重启拉起进入选举等)。 如上总结,目前我部署集群,比如30个容器。每个容器都部署Jm

Re: Flink1.13.1启动后web-ui查看taskmanager信息失败并报错,稳定复现。

2021-06-10 文章 yidan zhao
目前除了此问题外,还发现不少升级1.13.1后的问题。都是些比较奇怪的。具体遇到一个提交任务后,一直处于created状态的问题。 此外最麻烦的还是如上说的那个,后端一直报错,我集群30容器,每次都得想办法找到leader,否则都没办法看具体日志。 yidan zhao 于2021年6月10日周四 下午3:49写道: > > Hi。没人遇到过这个问题嘛。我感觉我都稳定复现的。 > > yidan zhao 于2021年6月10日周四 下午1:20写道: > > > > 如题,今天从1.12升级到1.13.1,启动standalone集群后。找到web-ui,点taskmanagers

Re: 回复: flinksql ttl不生效

2021-06-10 文章 chenchencc
嗯嗯,我这边排查看到是我是用temporary left join 维度表,使用事件时间,但是我期望维度表只保留3小时。目前使用on加上时间范围,貌似不生效,导致join的状态不断增加。有什么方式能处理吗,保留维度表一段时间数据。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

应用初始化HiveCatalog出错 "URI is not hierarchical"

2021-06-10 文章 casel.chen
我在spring boot应用中使用HiveCatalog展示库和表信息,通过传入hive参数初始化HiveCatalog时抛如下错误 hiveCatalog = new HiveCatalog(hiveConfig.getCatalogName(), hiveConfig.getDefaultDatabase(), hiveConfig.getHiveConfDir()); hiveCatalog.open(); 在spring boot应用所在机器上我只在/opt/hive/conf目录下准备了hive-site.xml,还缺什么配置么? 2021-06-11 10:32:20.

Temporal table join事件时间

2021-06-10 文章 chenchencc
大佬们好,想问下Temporal table join使用事件时间,右侧维度表有什么方式能只保留一段时间吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink????????-??????????????????????????????????????????

2021-06-10 文章 ??????
keyed ??trigger key??24onElement()FIRE_AND_PURGE?

Flink state evolution with avro

2021-06-10 文章 casel.chen
Is there any live code example about flink state evolution with avro? Thanks!

Re:Re: flink sql cdc数据同步至mysql

2021-06-10 文章 casel.chen
针对现在flink sql cdc下游并行度无法修改问题,是否可以分两步实现?谢谢! 1. flink sql cdc发到下游kafka,通过 upsert kafka connector,以debezium或canal格式,kafka topic开多个分区 2. 再从kafka消费,通过flink sql同步到最终mysql库 在 2021-06-08 19:49:40,"Leonard Xu" 写道: >试着回答下这两个问题。 > >> flink 1.12的jdbc connector不支持 sink.parallism 参数,是不是说只能和上游c

flink sql cdc支持额外字段问题

2021-06-10 文章 casel.chen
flink sql cdc写入kafka,期望kafka消息带上数据库database,表table,变更时间和变更标记+I/-U/+U/-D这几个特殊字段,目前来看是做不到的,对吗?

回复: 退订

2021-06-10 文章 frank . liu
退订     此致 敬礼 发件人: 金晓龙 发送时间: 2021年6月9日 14:27 收件人: user-zh@flink.apache.org 主题: 退订 退订

关于CEP处理事件的问题

2021-06-10 文章 sherlock zw
大佬们,请教一下,我现在使用CEP时遇到一个问题,我现在的场景是需要输入三次相同字符串打印一次匹配的List集合,但是遇到的问题是每次都需要输入第四条数据才会触发Pattern的select函数去打印List。 具体实现代码如下: public class Run3 { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 文章 yidan zhao
我也尝试了一波,不过比较奇怪的是,我程序测试log4可以写kafka OK。但是flink就是写不进去。 yidan zhao 于2021年6月10日周四 下午4:18写道: > > @yujianbo hi。可以把你log4j的配置发出来嘛,我也参考参考。 > > yujianbo <15205029...@163.com> 于2021年6月10日周四 下午3:31写道: > > > > 大佬,能告知一下吗?我目前知道lay out有这么多的参数可以配置,哪个参数能区分jm或者tm的日志呢: > > > > 具体的格式化说明: > > %p:输出日志信息的优先级,

Flink web UI Kafka相关指标值为空

2021-06-10 文章 Num
请教下,有个flink-kafka的应用,消费和sink都正常,但是唯独flink web ui上kafka指标能查询到,但图表显示空值【-】,其他非kafka的指标数据却显示正常,原本以为是jar冲突问题,但是换来换去也没有用,谢谢 Flink 1.11.2 on yarn

Re: Re:FlinkSQL join 维表后一定会变成 upsert流吗?

2021-06-10 文章 WeiXubin
感谢你的回答,我这边看了官网目前 join 一共可以分为 Regular Joins 、 Interval Joins 以及 Temporal Joins 三大类。 我上面问题所述的确是采用了 Regular Joins 的方式。 之后我也尝试使用了 Lookup Join 但发现其最后也是转为 INSERT INTO ON DUPLICATE KEY UPDATE 的执行语句, 并不是我所期望的纯 append 模式 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: 关于 LEFT JOIN DimTable FOR SYSTEM_TIME AS OF 的异常求教!

2021-06-10 文章 WeiXubin
已解决,问题在于 Kafka 不是直接 join 维表,而是先和 UDTF join,之后整体才与维表 Join。 所以之前起别名的位置有误。导致找不到字段、改造如下: 先前写法: INSERT INTO sinktable select // 省略字段 from KafkaTable,LATERAL TABLE(RequestBodyColumnToRow(message, 'uid,game_id(BIGINT),platform' )) *as k* LEFT JOIN DimTable FOR SYSTEM_TIME AS OF k.record_time as d O

关于 LEFT JOIN DimTable FOR SYSTEM_TIME AS OF 的异常求教!

2021-06-10 文章 WeiXubin
异常:column 'record_time' not found in table 'k' 异常描述:KafkaTable k 表在与维表进行 look up join 时定义了别名,之后报在 k 表中没有定义 record_time 字段。 Flink 版本: 1.12.2 // Source 表 CREATE TABLE KafkaTable ( message STRING, record_time TIMESTAMP(3) METADATA FROM 'timestamp' ) WITH ( 'connector' = 'kafka', ); //

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 文章 yidan zhao
@yujianbo hi。可以把你log4j的配置发出来嘛,我也参考参考。 yujianbo <15205029...@163.com> 于2021年6月10日周四 下午3:31写道: > > 大佬,能告知一下吗?我目前知道lay out有这么多的参数可以配置,哪个参数能区分jm或者tm的日志呢: > > 具体的格式化说明: > %p:输出日志信息的优先级,即DEBUG,INFO,WARN,ERROR,FATAL。 > %d:输出日志时间点的日期或时间,默认格式为ISO8601,也可以在其后指定格式,如:%d{/MM/dd > HH:mm:s

回复:检查点失败 Checkpoint Coordinator is suspending 。

2021-06-10 文章 Jason Lee
您好, Checkpoint Coordinator is suspending是那些等待执行的checkpoint检查点因为任务发生异常在停止顶定时任务的stopCheckpointScheduler()方法中被释放掉,所以日志中这个异常了; 具体什么问题害得详细看下是什么原因导致任务异常,是脏数据未处理异常还是怎样的,可能需要具体查看一下TM和JM日志,如果您这边发现具体原因可以同步一下 Best, JasonLee | | JaosnLee | | jasonlee1...@163.com | 签名由网易邮箱大师定制 在2021年06月10日 15:39,yidan zhao

Re: Flink1.13.1启动后web-ui查看taskmanager信息失败并报错,稳定复现。

2021-06-10 文章 yidan zhao
Hi。没人遇到过这个问题嘛。我感觉我都稳定复现的。 yidan zhao 于2021年6月10日周四 下午1:20写道: > > 如题,今天从1.12升级到1.13.1,启动standalone集群后。找到web-ui,点taskmanagers,出现列表,然后点任意taskmanager进行查看信息。右上角弹提示Internal > server error。查看了该JM的日志,后面附,主要报错是 Caused by: > java.io.NotSerializableException: > org.apache.flink.runtime.resourcemanager.TaskM

flink维度表一直没有数据,主表left join不输出

2021-06-10 文章 chenchencc
大佬们好, 想问下主表left join cdc维度表数据, 当维度表数据很久没到导致水位跟不上主表的时候,有什么方式吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

检查点失败 Checkpoint Coordinator is suspending 。

2021-06-10 文章 yidan zhao
如题,Checkpoint Coordinator is suspending 这种检查点失败是什么情况,timeout那种我理解是检查点执行时间长,超时了。但是 Checkpoint Coordinator is suspending 这个是什么含义呢?

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 文章 yujianbo
大佬,能告知一下吗?我目前知道lay out有这么多的参数可以配置,哪个参数能区分jm或者tm的日志呢: 具体的格式化说明: %p:输出日志信息的优先级,即DEBUG,INFO,WARN,ERROR,FATAL。 %d:输出日志时间点的日期或时间,默认格式为ISO8601,也可以在其后指定格式,如:%d{/MM/dd HH:mm:ss,SSS}。 %r:输出自应用程序启动到输出该log信息耗费的毫秒数。 %t:输出产生该日志事件的线程名。 %l:输出日志事件的发生位置,相当于%c.%

Checkpoint时内存不够TaskManager被Kill掉

2021-06-10 文章 Jason Lee
各位社区伙伴大家好 首先描述一下我的问题:最近我们发现有几个任务平时运行将近一个月都没发生问题,最近在进行checkpoint的时候经常失败,然后一直容错恢复重启,我们通过日志查看,发现某个TM在进行checkpoint的时候内存使用过大导致内存不够被Kill掉了; 报错日志: java.lang.Exception: Container [pid=24859,containerID=container_e01_1618927404581_0181_01_002010] is running beyond physical memor y limits. Current usage:

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 文章 zilong xiao
hi,yidan 可以在layout中读取系统环境变量作区分 祝好~ yidan zhao 于2021年6月10日周四 下午2:27写道: > 我觉得还有个头疼的吧,你很多机器,怎么区分每个机器还得。哪个机器的JM/TM的日志。 > > yujianbo <15205029...@163.com> 于2021年6月10日周四 下午1:48写道: > > > > log4j可以,log4j2也可以,现在头疼已经实现打kafka,不知道怎么区分这两边的日志 > > > > > > > > -- > > Sent from: http://apache-flink.147419.n

Re: JDBC异步lookup join有FLIP或者迭代计划吗?

2021-06-10 文章 zilong xiao
想贡献+1,关注中... Ada Luna 于2021年6月10日周四 下午2:42写道: > 好的后续我会在这个ticket简述方案。 > > Lin Li 于2021年6月10日周四 下午12:02写道: > > > > 社区之前有过基于 legacy source 的 pr > > https://issues.apache.org/jira/browse/FLINK-14902, 不过目前没有进展, 欢迎贡献! > > cc Guowei Ma > > > > > > Luna Wong 于2021年6月10日周四 上午11:16写道: > > > > > 如果没有我用Ve

flink1.13.1在sql文件和flink-conf.yaml文件中不生效

2021-06-10 文章 Fei Han
大家好: flink1.13.1在sql文件和flink-conf.yaml文件中不生效。我的sql文件内容如下: 尝试多次,数据无法写入iceberg。hive版本2.3.6

关于1.13中通过颜色等反馈的反压体验

2021-06-10 文章 yidan zhao
目前初步体验下来,还可以。我明显可以看到窗口出发时机,窗口后续的算子瞬间进入红色,然后几秒后恢复。 此外,非窗口出发时期的话,目前发现跟着KafkaSource算子之后的那个节点相对是busy值最高的,这个我理解为我kafka数据不断进入,所以对于source后直接跟的算子数据比较不断,所以一直处于有输入可用状态。 ——不过,我目前采用的是全部算子相同并行度的策略,因为为了让每个算子都平均分配到全部TaskManager机器上。目前任何一个算子并行度设置不一致,flink就无法保证分发task的时候每个task都在TM之间均衡。