date:20201105

Re: flink 1.11 cdc: 如何将DataStream 要如何转成flink sql cdc里的table？

2020-11-05 文章 jindy_liu

好的，谢谢jark！数据是有删除的，所以看看要实现下souce方案。本来只想在上层用mapfuction进行一下合并来的，再做转换！看来还是绕不过sql connector实现。源是kafka，看样子要想办法把kafka的流KafkaDynamicSource想办法改造下！！！ -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink savepoint

2020-11-05 文章 admin

Hi, 你的任务时跑在yarn上的吗？如果是需要指定 -yid > 2020年11月6日下午1:31，Congxian Qiu 写道： > > Hi > 从 client 端日志，或者 JM 日志还能看到其他的异常么？ > Best, > Congxian > > > 张锴于2020年11月6日周五上午11:42写道： > >> 重启和反压都正常 >> 另外增加了从客户端到master的时间，还是有这个问题 >> >> hailongwang <18868816...@163.com> 于 2020年11月6日周五 10:54写道： >> >>> Hi, >

Re: 退订

2020-11-05 文章 Congxian Qiu

hi 退订请发邮件到 user-zh-unsubscr...@flink.apache.org，更多详情请参考[1] [1] https://flink.apache.org/community.html#mailing-lists Best, Congxian 李郝 <13777597...@163.com> 于2020年11月5日周四下午9:54写道： > 退订

Re: flink savepoint

2020-11-05 文章 Congxian Qiu

Hi 从 client 端日志，或者 JM 日志还能看到其他的异常么？ Best, Congxian 张锴于2020年11月6日周五上午11:42写道： > 重启和反压都正常 > 另外增加了从客户端到master的时间，还是有这个问题 > > hailongwang <18868816...@163.com> 于 2020年11月6日周五 10:54写道： > > > Hi, > > > > > > 这个报错只是在规定的时间内没有完成 Savepoint，导致客户端连接 Master 超时， > > 具体的原因需要看下 Jobmaster 的日志。 > > PS：在任务

Re: Re:Re: Flink StreamingFileSink滚动策略

2020-11-05 文章 bradyMk

Hi，guoliang_wang1335 请问StreamingFileSink用forBulkFormat方法时，可以自定义滚动策略么？你这边实现成功了么？ - Best Wishes -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink savepoint

2020-11-05 文章张锴

重启和反压都正常另外增加了从客户端到master的时间，还是有这个问题 hailongwang <18868816...@163.com> 于 2020年11月6日周五 10:54写道： > Hi, > > > 这个报错只是在规定的时间内没有完成 Savepoint，导致客户端连接 Master 超时， > 具体的原因需要看下 Jobmaster 的日志。 > PS：在任务一直重启、反压的情况下，一般 Savepoint 都会失败。 > > > Best， > Hailong Wang > > > > > 在 2020-11-06 09:33:48，"张锴" 写道： > >本人在使用

请教大神们关于flink-sql中数据赋值问题

2020-11-05 文章 site

看了官网的示例，发现sql中传入的值都是固定的，我有一个场景是从kafka消息队列接收查询条件，然后通过flink-sql映射hbase表进行查询并写入结果表。我使用了将消息队列映射表再join数据表的方式，回想一下这种方式很不妥，有什么好的方法实现sql入参的动态查询呢？

Re: Re:请教一下目前flink submit能不能指定额外的依赖jar

2020-11-05 文章 silence

感谢回复，还是希望可以从submit上解决这个问题，不能添加依赖限制了很多应用场景，特别是针对平台来说 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re:请教一下目前flink submit能不能指定额外的依赖jar

2020-11-05 文章 hailongwang

Hi silence，目前有个 issue [1]在跟进创建 UDF 时候添加 jar 包。 PS：目前在我的内部版本，是扩展了类似 ADD Dependency 语法，在 job 提交运行时候会把 jar 包等加载到所运行的 classpath 下，这样就可以让用户在 SQL 中注册 UDF，自己定义 Connector等，但是是非标准 SQL。 [1] https://issues.apache.org/jira/browse/FLINK-14055 Best, Hailong Wang 在 2020-11-06 09:34:27，"silence" 写道： >大

Re:flink savepoint

2020-11-05 文章 hailongwang

Hi, 这个报错只是在规定的时间内没有完成 Savepoint，导致客户端连接 Master 超时，具体的原因需要看下 Jobmaster 的日志。 PS：在任务一直重启、反压的情况下，一般 Savepoint 都会失败。 Best， Hailong Wang 在 2020-11-06 09:33:48，"张锴" 写道： >本人在使用flink savepoint 保存快照的时候，遇到错误，目前不清楚是因为什么导致这个问题，路过的大佬帮忙看下。 > >flink 版本1.10.1 > > >执行 flink savepoint a3a2e6c3a5a00bbe4c0c

请教一下目前flink submit能不能指定额外的依赖jar

2020-11-05 文章 silence

大家好由于目前用了flink SQL封装了jar包，sql是作为参数动态传入的，因此需要动态的引入一下依赖jar，比如udf jar，connector的jar等，由于不同任务的依赖jar是不同的，不适合都放在flink lib目录下（可能会冲突）因此想请教一下有没有办法在submit时才指定任务依赖的jar包，类似spark submit的--jars 没有的话有没有相关的issue可以跟进这个问题谢谢 -- Sent from: http://apache-flink.147419.n8.nabble.com/

flink savepoint

2020-11-05 文章张锴

本人在使用flink savepoint 保存快照的时候，遇到错误，目前不清楚是因为什么导致这个问题，路过的大佬帮忙看下。 flink 版本1.10.1 执行 flink savepoint a3a2e6c3a5a00bbe4c0c9e351dc58c47 hdfs://hadoopnamenodeHA/flink/flink-savepoints 出现错误信息 org.apache.flink.util.FlinkException: Triggering a savepoint for the job a3a2e6c3a5a00bbe4c0c9e351dc58c47 f

回复: Flink1.11.0 sql org.apache.flink.connector.jdbc.dialect.MySQLDialect发现疑似bug

2020-11-05 文章 wind.fly....@outlook.com

嗯，应该是没问题的，我理解错了，谢谢指正。发件人: 史正超发送时间: 2020年11月5日 19:30 收件人: user-zh@flink.apache.org 主题: 回复: Flink1.11.0 sql org.apache.flink.connector.jdbc.dialect.MySQLDialect发现疑似bug 应该是没有问题的，首先你在flink sql中指定的primary key 应该要与mysql中的唯一索引或者主键对应。其次那个方法里组装出来的语句类似下面的语句: INSERT

Re:关于flink任务挂掉报警的监控指标选择

2020-11-05 文章 RS

可以配置任务重启告警, flink任务挂掉之后会自动尝试重启如果是固定任务数量的话, 还可以配置slot数量告警在 2020-11-05 10:15:01，"bradyMk" 写道： >请问各位大佬，我基于grafana+prometheus构建的Flink监控，现在想实现flink任务挂掉后，grafana就发出报警的功能，但是目前不知道该用什么指标去监控，我之前想监控flink_jobmanager_job_uptime这个指标，设置的监控规则是：max_over_time(flink_jobmanager_job_uptime[1m]) >- >min_over_time(

回复: flink1.11的cdc功能对消息顺序性的处理

2020-11-05 文章史正超

Canal可以配置分区策略：配置保证相同id的记录都发到同一个分区，比如 `db.table1:id` 这样就保证了数据的有序。发送自 Windows 10 版邮件应用发件人: Jark Wu 发送时间: 2020年11月5日 21:28 收件人: user-zh 主题: Re: flink1.11的cdc功能对消息顺序性的处理我理解你说的是对 pk 的更新的场景。比

关于cluster.evenly-spread-out-slots参数的底层原理

2020-11-05 文章赵一旦

有没有人对cluster.evenly-spread-out-slots参数了解比较深入的给讲解下。我主要想知道，设置这个参数为true之后。Flink是以一个什么样的规则去尽可能均衡分配的。 standalone集群模式下，每个机器性能相同，flink slot数量配置相同情况下。基于*这种分配规则*，有没有一种方法让Flink做到 *完全均衡*，而*不是尽可能均衡*？此外，我说的“均衡”都特指算子级别的均衡。不要5机器一共5个slot，然后任务有5个算子，每个算子单并发并且通过不同的share group各独占1个slot这种均衡。我指的是每个算子都均衡到机器（*假设并发设置合理

退订

2020-11-05 文章李郝

退订

Re: flink1.11的cdc功能对消息顺序性的处理

2020-11-05 文章 Jark Wu

我理解你说的是对 pk 的更新的场景。比如一张 user 表，有[user_id, user_name] 2个字段，假设有 "101, Tim" 记录做了两次更新 update1：update test set id=102 where id=101; update2: update test set id=103 wehre id=102; 针对这种场景 debezium 是会把这种针对 pk的更新拆成一条 delete 和一条 insert，而不是 update 消息。所以 update1 语句产生了： DELETE(101,Timo) 发到了p1 INSERT(102,T

Re: JobManager responsible for xxx lost the leadership.

2020-11-05 文章赵一旦

standalone模式。 hailongwang <18868816...@163.com> 于2020年11月5日周四下午8:55写道： > Hi, > 你是 on-yarn 的模式吗？ > JobManager 并不是 worker，只是控制 Checkpoint ，接收 TM 的心跳等，可以看下在这个之前的其它日志。 > 还可以看下 ZK 是否正常等。 > On-yarn 的话，也可以看下 NM 对这个AM处理的日志。 > > > Best， > Hailong Wang > > 在 2020-11-05 15:03:11，"赵一旦" 写道： > >JobManager r

Re: keyBy的数据均衡性

2020-11-05 文章赵一旦

如果uid=0的组合数规模大点，能够更加均衡的分到10个并发算子。那么相当于10个并发算子能公平的分到流量低（uid!=0）的组合，以及流量高（uid=0）的组合。所以本身就不会不均衡了。此处应该是因为*sid+subid+browser*的组合数正好也不够大导致的。感觉有道理不。赵一旦于2020年11月5日周四下午9:08写道： > 感觉好像有道理哈哈。 > > 分析下：*sid+subid+browser+uid* 一共大约300w假设，*sid+subid+browser *则假设是300个。 > 那么uid=0的存在300种组合，即 *3

Re: keyBy的数据均衡性

2020-11-05 文章赵一旦

感觉好像有道理哈哈。分析下：*sid+subid+browser+uid* 一共大约300w假设，*sid+subid+browser *则假设是300个。那么uid=0的存在300种组合，即 *300w种组合 *中有 *300种组合（uid=0） *是相对大概率出现的。那么这300种大概率出现的组合如果碰巧分布不够均衡，就会导致window算子部分不均衡。之前我考虑了uid的问题，但想的是hash是一堆字段一起哈希，uid自身不均衡不会导致问题。但基于如上分析，貌似是有问题的。因为uid=0的组合数的 *规模太小（300

Re:flink1.11的cdc功能对消息顺序性的处理

2020-11-05 文章 hailongwang

Hi，可以看下 Jark 的《基于 Flink SQL CDC 的实时数据同步方案》文章 [1]. 其中在最后的 Q&A 中描述了 "首先需要 kafka 在分区中保证有序，同一个 key 的变更数据需要打入到同一个 kafka 的分区里面，这样 flink 读取的时候才能保证顺序。" 个人认为，需要 Update 的 key 可以更 canal 采集到 kakfa 的 hash key 一致，这样就保证了有序？ [1] https://mp.weixin.qq.com/s/QNJlacBUlkMT7ksKKSNa5Q Best， Hailong Wang 在

Re:Re:Re:union all 丢失部分数据

2020-11-05 文章 hailongwang

可以确认下 union all 之后的数据是不是根据 group by 的 key 相互覆盖的情况。在 2020-11-05 13:24:20，"夜思流年梦" 写道： > > > > > > > > > >flink 版本是1.11的版本了 > > > > > > > > >在 2020-11-05 00:02:12，"hailongwang" <18868816...@163.com> 写道： >>Hi liaobiao, >> >> >>你的 flink 版本是什么呢？ >>根据你的 SQL，如果是版本是 <= 1.10 的话，会根据 MetaDataHander 识别出你的

Re:JobManager responsible for xxx lost the leadership.

2020-11-05 文章 hailongwang

Hi, 你是 on-yarn 的模式吗？ JobManager 并不是 worker，只是控制 Checkpoint ，接收 TM 的心跳等，可以看下在这个之前的其它日志。还可以看下 ZK 是否正常等。 On-yarn 的话，也可以看下 NM 对这个AM处理的日志。 Best， Hailong Wang 在 2020-11-05 15:03:11，"赵一旦" 写道： >JobManager responsible for ff2118284beed21ac220ee7cc0a639c0 lost the >leadership. > > > >这种错误原因是什么，会导致任务重启，

Re:flink 1.11.0 chk超时

2020-11-05 文章 hailongwang

Hi liangji, CP 超时的原因一般是因任务而议的。从你提供的 2 张截图来看，卡在第二个 operator 的 subtask3 上。上下两个 operator 之间的关系是 forworad 还是 reblance 呢？如果是 forward 的话，可以看下是不是数据倾斜，subtask3 需要处理的数据量比较多。如果是 reblance 的话，以为 subtask1 和 subtask2 都成功了，所以上游的 barrier 应该都往下发了，所以 subtask3也收到了上游的 barrier，而 reblance 数据量都一样，所以可以看下是不是 sink 出去太

??????keyBy????????????

2020-11-05 文章 ????

Hello ?? uid = 0 Best Wishes fanrui -- -- ??: "user-zh"

keyBy的数据均衡性

2020-11-05 文章赵一旦

我这边遇到一个情况比较奇怪。（1）一整天数据的统计信息如下： sid+subid+browser+ip: 13068577 sid+subid+browser+uid: 2962237 如上，sid和subid是渠道和子渠道，browser是浏览器，ip和uid都是一个相对变化较大的维度。 *数字是distinct count信息。* （2）任务逻辑流A，分别基于sid+subid+browser+ip和sid+subid+browser+uid组合维护做统计。window算子并发都是10。结果是sid+subid+browser+ip的window算子收到数据基本均衡（1.09G～1.

Re: flink-1.11 写 hive 报错

2020-11-05 文章 Rui Li

感觉像是依赖冲突，hive和Hadoop的版本是什么呢？ On Thu, Nov 5, 2020 at 3:50 PM nashcen <2415370...@qq.com> wrote: > > > flink 读 kafka 写 hive，之前运行好好的。在IDEA也能正常运行，打成jar包，提交到 flink 集群，报错如下。请问是什么原因？ > > 2020-11-05 15:34:36 > org.apache.flink.connectors.hive.FlinkHiveException: > org.apache.flink.table.catalog.exception

回复: Flink1.11.0 sql org.apache.flink.connector.jdbc.dialect.MySQLDialect发现疑似bug

2020-11-05 文章史正超

应该是没有问题的，首先你在flink sql中指定的primary key 应该要与mysql中的唯一索引或者主键对应。其次那个方法里组装出来的语句类似下面的语句: INSERT INTO `tablename`(`key1`, `key2`, `f1`, `f2`) VALUES (?, ?, ?, ?) ON DUPLICATE KEY UPDATE `key1`=VALUES(`key1`), `key2`=VALUES(`key2`), `f1`=VALUES(`f1`), `f2`=VALUES(`f2`) 里面已经包含了定义的key, 当发生唯一键冲突时，会执行更新。

Flink1.11.0 sql org.apache.flink.connector.jdbc.dialect.MySQLDialect发现疑似bug

2020-11-05 文章 wind.fly....@outlook.com

Hi，all：近日因为用到JdbcDynamicTableSink，发现往mysql插入数据时没有按我指定的primary key更新数据，无意间追踪到org.apache.flink.connector.jdbc.dialect.MySQLDialect类中getUpsertStatement方法： /** * Mysql upsert query use DUPLICATE KEY UPDATE. * * NOTE: It requires Mysql's primary key to be consistent with pkFields. * * We d

Re: Re: sql-cli执行sql报错

2020-11-05 文章 zhisheng

这个问题同样在最新的 master 分支也有这个问题，我建了一个 Issue 描述了下整个流程 https://issues.apache.org/jira/browse/FLINK-19995 hl9...@126.com 于2020年9月28日周一下午6:06写道： > 按照您的方法重试了下，又报了另一个错误： > Flink SQL> CREATE TABLE tx ( > > account_id BIGINT, > > amount BIGINT, > >

flink 1.11.0 chk超时

2020-11-05 文章 liangji

chk history如图，以下是TM中找到的INFO信息： 2020-11-05 13:13:38,101 INFO org.apache.flink.streaming.api.functions.sink.fil

flink 1.11.0 chk超时

2020-11-05 文章 liangji

chk history如图，以下是TM中找到的INFO信息： 2020-11-05 13:13:38,101 INFO org.apache.flink.streaming.api.functions.sink.fil

flink1.11的cdc功能对消息顺序性的处理

2020-11-05 文章 18392099563

hi everyone, 麻烦请教下各位大神，flink如何处理如下问题： flink1.11引入cdc，可以解析canal和debezuim发送的CDC数据，其中canal一般是可以指定某些字段作为key进行hash分区发送到同一topic下的不同分区的。如果源端短时间对pk值进行多次update，则有可能导致发往不同分区，从而无法保证顺序性。假如 1.有源表和目标表： create table test( id int(10) primary key ) 2.源表的增量数据通过canal发往kafka，目标表接收kafka消息进行同步。 3.发往的topic下有三个partition

flink 1.11.0 chk超时

2020-11-05 文章 liangji

chk的历史如图，第三个subtask未能ack，同时在TM中只能找到如下信息： 2020-11-05 13:13:38,101 INFO org.apache.flink.streaming.api.function

flink sql读写带kerberos认证的kafka问题请教

2020-11-05 文章 amen...@163.com

hi everyone, 想请问下社区及各位大神们，通过Flink Table API&SQL连接带有kerberos认证的kafka时，怎么做的kafka集群中topic和group权限认证的？ best, amenhub

??????1.11.1 ??OutOfMemoryError: Metaspace. ????

2020-11-05 文章 Asahi Lee

?? ??flink 1.11.2MySQL /* Copyright (c) 2013, 2015, Oracle and/or its affiliates. All rights reserved. The MySQL Connector/J is licensed under the terms of the GPLv2 ;, like most MySQL

JobManager responsible for xxx lost the leadership.

2020-11-05 文章赵一旦

JobManager responsible for ff2118284beed21ac220ee7cc0a639c0 lost the leadership. 这种错误原因是什么，会导致任务重启，本身压力大，突然重启使用10分钟前的ckpt，压力更大了。

38 matches

Mail list logo