Re: Flink1.10 history server无法监控 FlinkSQL任务

2020-10-23 Thread yujianbo
大佬,我发现我配置完后就只能看到完成的任务在history sever上面,失败的看不到。现在疑惑的是失败的能不能出现在history server -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink CDC 遇到关于不发生packet造成的卡顿问题该如何解决

2020-11-24 Thread yujianbo
一、环境: 1、版本:1.11.2 2、flink CDC 用Stream API 从mysql 同步到kudu 二、遇到的问题现象: 1、目前线上已经同步了几张mysql表到kudu了,mysql的量级都在3千万左右。 但是有一张mysql表同步了几次都遇到一个问题:大概能判断在全量阶段,还没到增量阶段。 错误日志在下面。目前想采取“autoReconnect=true”看看来避免,到是不应该加在哪个地方,看日志感觉加了这个参数也是治标不治本,重点是为啥不发送packet,造成了卡顿? 下面是具体报错: ===

Re: Flink CDC 遇到关于不发生packet造成的卡顿问题该如何解决

2020-11-25 Thread yujianbo
主要是为了实现解析自定义的schema,sink端好输出到下游。 想请教一个问题: https://github.com/ververica/flink-cdc-connectors/wiki/MySQL-CDC-Connector#set-a-differnet-server-id-for-each-job 看了上面这个链接关于为每个作业设置一个differnet server id的问题。我看sql可以指定不同的server id,所以有下面这三个疑惑: 1、 如果是不同的stream 任务 的它的server id是不是同一个? 2、不同的stream 任务 同步同一个数据库的不同表是

Re: Flink CDC 遇到关于不发生packet造成的卡顿问题该如何解决

2020-11-25 Thread yujianbo
感谢Jark的回答,还想请问大佬,想问社区的mysql cdc 的wiki上说具有许多的不同的 server id去连接mysql服务器,会造成mysql cpu和连接高峰。那想问我们cdc采用sql指定不同的 serverid 去拉不同的表, 是不是这样的cdc 任务也不要太多? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink CDC 遇到关于不发生packet造成的卡顿问题该如何解决

2020-11-25 Thread yujianbo
感谢Jark! 上次调整了mysql连接参数解决了超时问题,但是目前还是同步这张表的时候,就是在Snapshot快结束阶段卡主,报连接异常,请问这个地方应该排查哪个地方? 一、环境: 1、版本:1.11.2 2、flink CDC 用Stream API 从mysql 同步到kudu 3、*这张表有3400万数据,老是在3340左右就卡住,目前已经把sink 到kudu直接改成 print输出还是会出现一模一样的报错。* 日志如下: == 2020-11-26 14:00:15,293 ERROR *io.debezi

关于flink cdc sql转出Stream流问题

2020-11-30 Thread yujianbo
代码采用sql方式接入mysql cdc数据然后转出Stream流, 写入kudu,但是不知道怎么去获取 row里面的主键字段是哪一个和字段名称和类型等? 或者toRetractStream可以指定其他的class??? 下面是代码 == tableEnv.executeSql(createTableSql); Table table = tableEnv.sqlQuery(querySql); DataStream> dataStream = tableEnv.toRe

Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点

2020-12-21 Thread yujianbo
各位大佬好: 请问Flink on yarn 如何指定固定几台yarn节点当做flink任务的运行节点? -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink1.12.0 sql-client连接hive报错

2021-01-11 Thread yujianbo
二、启动: export HADOOP_CLASSPATH=`hadoop classpath` /tmp/flink-1.12.0/bin/sql-client.sh embedded 三、报错: [yujianbo@qzcs86 conf]$ /tmp/flink-1.12.0/bin/sql-client.sh embedded Setting HBASE_CONF_DIR=/etc/hbase/conf because no HBASE_CONF_DIR was set. SLF4J: Class path contains multiple

Re: 回复:Flink1.12.0 sql-client连接hive报错

2021-01-12 Thread yujianbo
1、现在sql-cli能够提交到yarn的session那边,但是会直接报错: Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.mapred.JobConf at java.net.URLClassLoader.findClass(URLClassLoader.java:381) at java.lang.ClassLoader.loadClass(ClassLoader.java:424) at sun.misc.Launcher$AppClassLoader.lo

Flink sql cli 查询hive 为两个字段的分区表如果where条件不指定这两个字段条件会出异常

2021-01-12 Thread yujianbo
生产的hive表由datekey和event两个字段作为分区,查询sql语句: (1)第一组对比 SELECT vid From table_A WHERE datekey = '20210112' AND event = 'XXX' AND vid = 'aa';(*正常*) SELECT vid From table_A WHERE datekey = '20210112' AND vid = 'aa'; (*异常*) SELECT vid From table_A WHERE datekey = '20210112';(*正常*) (2)第二组

Flink sql cli 查询hive 为两个字段的分区表如果where条件不指定这两个字段条件会出异常

2021-01-12 Thread yujianbo
生产的hive表由datekey和event两个字段作为分区,查询sql语句: (1)第一组对比 SELECT vid From table_A WHERE datekey = '20210112' AND event = 'XXX' AND vid = 'aa';(*正常*) SELECT vid From table_A WHERE datekey = '20210112' AND vid = 'aa'; (*异常*) (2)第二组对比 SELECT vid From table_B WHERE datekey = '20210112' AND even

Re: Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

2021-01-24 Thread yujianbo
请教一下大佬后来如何解决,我的hadoop和hive版本跟您一致。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink启动任务时异常,加载不到flink/lib目录下的包

2021-01-26 Thread yujianbo
环境: flink 1.12.0 报这个错:报加载不到这个log4j-slf4j-impl-2.12.1.jar包,但是我的lib目录下是有这个包的: $ cd lib/ $ ll -rw-r--r-- 1 yujianbo yujianbo 91554 1月 26 18:44 flink-csv-1.12.0.jar -rw-r--r-- 1 yujianbo yujianbo 114119885 1月 26 18:45 flink-dist_2.11-1.12.0.jar -rw-r--r-- 1 yujianbo yujianbo136664 1月 26 18

Re: Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

2021-01-26 Thread yujianbo
Rui Li 上午好,能帮我看一下这个http://apache-flink.147419.n8.nabble.com/flink-flink-lib-td10518.html也是由依赖冲突引起的吗。我的情况是这样的,一样的集群,之前是cdh的hadoop3.0.0,hive是2.2.0;现在准备从cdh迁回社区版的hadoop集群,变成3.3.0,hive是3.1.2,昨天解决了hive-exec的问题,但是今天同样的一份代码在上一个集群是可以正常提交正常跑的,但是放到新的集群这边跑,启动的时候就直接说加载不到lib包下的一个jar,就有点奇怪,是yarn冲突了吗? -- Sent

Re: flink启动任务时异常,加载不到flink/lib目录下的包

2021-01-26 Thread yujianbo
我已经解决了,是因为我跑的任务jar包里的resources目录下的一个文件hdfs-site.xml是上一份集群的,我把这个去掉就可以了。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

2021-01-26 Thread yujianbo
参考大佬Rui Li的建议,我解决了,想参考的可以看看这个: https://blog.csdn.net/weixin_44500374/article/details/113244560 https://www.jianshu.com/p/f076a4f66527 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Caused by: java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V

2021-01-26 Thread yujianbo
我的已经解决了,根据大佬Rui Li的建议,也可以参考我的方式: https://blog.csdn.net/weixin_44500374/article/details/113244560 https://www.jianshu.com/p/f076a4f66527 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flinksql引入flink-parquet_2.11任务提交失败

2021-02-01 Thread yujianbo
大佬后面你是怎么解决的,我也是突然遇到这个问题 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 Thread yujianbo
一、环境: 1、版本:1.12.0 2、flink sql 3、已经设置了setIdleStateRetention 为1小时 4、状态后端是rocksDB, 增量模式 5、源数据没有数据激增情况,任务已经跑了两天 二、详情 具体sql见第三大点,就是普通的group by统计的 sql,然后设置setIdleStateRetention(3600)。目前观察两天了,checkpoint目录下面的shared文件夹的大小一直在增长,然后看文件夹里的文件是在一直更新,最早的文件也会消失。 我sql的groupby维度有加一个具体的分钟字

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 Thread yujianbo
有没有大佬帮忙看看 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 Thread yujianbo
没有更好的方式吗 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 Thread yujianbo
没有更好的方式吗,这样治标不治本,那我大状态任务会有很多问题 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-05-31 Thread yujianbo
感谢大佬的回复!以后优先现在邮箱这边讨论发现问题再去提个issue! 我的 idleStateRetention确实是设置3600秒,我先进行测试看看。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-06-02 Thread yujianbo
/b582991b8b2b8dadb89e71d5002c4a9cc2055e34/flink-runtime/src/main/java/org/apache/flink/runtime/checkpoint/Checkpoints.java#L99 祝好 唐云 From: yujianbo <[hidden email]> Sent: Tuesday, June 1, 2021 10:51 To: [hidden email] <[hidden email]> Subject: Re: Flink Sql 的/checkpoint/

Re: Flink Sql 的/checkpoint/shared/文件夹大小不断增长,源数据没有数据激增,应该如何控制?

2021-06-02 Thread yujianbo
好的非常感谢,我拿几个任务测试一波,看看性能能不能接受! Hi, 没有被引用的文件可能也不是完全无用的,可能是当前pending checkpoint正在上传的,所以还需要比较一下那些不在checkpoint meta内的文件的修改时间戳,可能比你分析的complete checkpoint的时间戳要大。 总体上来说,我不认为这个问题是一个bug,这个是LSM架构的DB的空间放大问题。如果你对空间放大非常担心的话,可以启用 dynamic level [1] 来严格控制空间放大,不过这个可能会影响写放大和读放大,导致性能

Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-09 Thread yujianbo
版本:1.12 框架:用默认的log4j2框架 问题:日志打到kafka,如何去区分jobmanager和taskmanger日志?我发现去改layout.pattern,还是没有能找到区分的好办法? appender.kafka.layout.type=PatternLayout appender.kafka.layout.pattern=%d{-MM-dd HH:mm:ss,SSS} %-5p %-60c %x - %m%n -- %t -- %F -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-09 Thread yujianbo
log4j可以,log4j2也可以,现在头疼已经实现打kafka,不知道怎么区分这两边的日志 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-10 Thread yujianbo
大佬,能告知一下吗?我目前知道lay out有这么多的参数可以配置,哪个参数能区分jm或者tm的日志呢: 具体的格式化说明: %p:输出日志信息的优先级,即DEBUG,INFO,WARN,ERROR,FATAL。 %d:输出日志时间点的日期或时间,默认格式为ISO8601,也可以在其后指定格式,如:%d{/MM/dd HH:mm:ss,SSS}。 %r:输出自应用程序启动到输出该log信息耗费的毫秒数。 %t:输出产生该日志事件的线程名。 %l:输出日志事件的发生位置,相当于%c.%

Re: Flink1.12 用官方默认的log4j2打日志到kafka,如何区分jobmanager和TaskManager的日志?怎么加参数?

2021-06-15 Thread yujianbo
最新详细配置,可以看看我的博客: https://blog.csdn.net/weixin_44500374/article/details/117931457 如果对你有帮助帮忙点个赞~ -- Sent from: http://apache-flink.147419.n8.nabble.com/