flink1.11时间函数

2020-08-27 文章 Dream-底限
hi UNIX_TIMESTAMP() NOW() 我这面想使用flink的时间戳函数,但是看官方文档对这两个函数描述后面加了一个此功能不确定,这个此功能不确定指的是这两个时间函数不能用吗

Re: flink-sql 1.11整合hbase的查询性能问题

2020-08-27 文章 Leonard Xu
Hi > 另外,HbaseTableSource 有没有计划什么时候支持 SupportsFilterPushDown. 我搜了下社区还没相关的issue,如果是强需求你可以去社区建个issue[1],让社区支持下 第二个异常栈,如果确认”org.apache.hive:hive-hbase-handler:2.1.1” 已经加载,我感觉是个bug, cc Rui Li 确认下 祝好 Leonard [1] https://issues.apache.org/jira/projects/FLINK/summary

Re: flink prometheus 无法上报accumulator类型监控吗

2020-08-27 文章 Xiao Xu
accumulator 是聚合后的指标, metics 里是底层的指标, 据我所知没有办法打到监控里面 Yun Tang 于2020年8月28日周五 下午2:37写道: > Hi > > 没有名为 accumulator 的metrics类型数据,目前只有Counters, Gauges, Histograms 和 Meters > [1] 这四种,如果你想要用累积型metrics,可以考虑counters > > [1] > https://ci.apache.org/projects/flink/flink-docs-stable/monitoring/metrics.html#m

Re: flink prometheus 无法上报accumulator类型监控吗

2020-08-27 文章 Yun Tang
Hi 没有名为 accumulator 的metrics类型数据,目前只有Counters, Gauges, Histograms 和 Meters [1] 这四种,如果你想要用累积型metrics,可以考虑counters [1] https://ci.apache.org/projects/flink/flink-docs-stable/monitoring/metrics.html#metric-types 祝好 唐云 From: 赵一旦 Sent: Friday, August 28, 2020 10:5

答复: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

2020-08-27 文章 范超
谢谢云哥,可以了! 解决了我的大问题。 -邮件原件- 发件人: Yun Tang [mailto:myas...@live.com] 发送时间: 2020年8月28日 星期五 13:58 收件人: user-zh 主题: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息 Hi 范超 虽然看不到你的图,但是你的启动命令错误了,所有的options应该放在jar包文件地址前面[1] 1. class name 应该在 jar包地址前面 [2] 2. savepoint/checkpoint 地址

Re: tidb Binlog 整库同步到 hive

2020-08-27 文章 Rui Li
是的,我觉得需要自己实现一个sink,检测到新增的表时需要通过catalog去hive里创建一下。有点像hive的dynamic partitioning,只不过写的是多张表而不是多个partition。 On Fri, Aug 28, 2020 at 2:08 PM Qishang wrote: > Hi Rui Li. > > > 我理解也是如果多路输出需要能动态适配新表的话只能用DataStream自己实现了 > 这个实现有啥思路,能稍微详细说一下嘛? 是不是需要自己开发一个 Sink 来适配? > > Rui Li 于2020年8月28日周五 下午1:47写道: > > >

Re: tidb Binlog 整库同步到 hive

2020-08-27 文章 Qishang
Hi Rui Li. > 我理解也是如果多路输出需要能动态适配新表的话只能用DataStream自己实现了 这个实现有啥思路,能稍微详细说一下嘛? 是不是需要自己开发一个 Sink 来适配? Rui Li 于2020年8月28日周五 下午1:47写道: > Hi, > > 我理解也是如果多路输出需要能动态适配新表的话只能用DataStream自己实现了,具体写表的时候可以试试看能不能复用hive > connector里现有的sink。 > > On Fri, Aug 28, 2020 at 12:15 PM Leonard Xu wrote: > > > Hi > > > > >

答复: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

2020-08-27 文章 范超
Hi 唐云哥,收到,我现在测试一下看看 感谢感谢 -邮件原件- 发件人: Yun Tang [mailto:myas...@live.com] 发送时间: 2020年8月28日 星期五 13:58 收件人: user-zh 主题: Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息 Hi 范超 虽然看不到你的图,但是你的启动命令错误了,所有的options应该放在jar包文件地址前面[1] 1. class name 应该在 jar包地址前面 [2] 2. savepoint/checkpoi

Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

2020-08-27 文章 Yun Tang
Hi 范超 虽然看不到你的图,但是你的启动命令错误了,所有的options应该放在jar包文件地址前面[1] 1. class name 应该在 jar包地址前面 [2] 2. savepoint/checkpoint 地址应该在jar包地址前面 [3] 没有正确从checkpoint恢复的原因应该是这个原因 [1] https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html#usage [2] https://ci.apache.org/projects/flink/flink-docs-st

flink-sql 1.11整合hbase的查询性能问题

2020-08-27 文章 大罗
你好,我想提两个问题,关于flink-sql整合hbase,问题列表如下: 问题一:flink-sql通过hive catalog整合hbase后的查询执行计划,可否使用rowkey做精确filter而不是整表扫描。 问题二:flink-sql 查询hive的hbase外部表,是否没有通过HBaseStorageHandler正确解析INPUTFORMAT和OUTPUTFORMAT 两个问题的具体情景如下: 我所使用的版本如下: Hadoop 3.0.0+cdh6.3.2 HDFS3.0.0+cdh6.3.2 HBase 2.1.0+cdh6.3.2 Hive2.1

Re: tidb Binlog 整库同步到 hive

2020-08-27 文章 Rui Li
Hi, 我理解也是如果多路输出需要能动态适配新表的话只能用DataStream自己实现了,具体写表的时候可以试试看能不能复用hive connector里现有的sink。 On Fri, Aug 28, 2020 at 12:15 PM Leonard Xu wrote: > Hi > > > 多路输出是个动态的,因为是整库的binlog ,不确定库中是否有新增表,作业要触发hive里面去创建表的动作。hive catalog > create > > table 是否可以在运行中来调用吗? > > 程序启动之后生成的jobgraph运行中是不是不可以调整的?如果可以的话,是否有类似

Re: flink1.11????kafka????

2020-08-27 文章 ??????
??Number of locked synchronizers = 1 - java.util.concurrent.locks.ReentrantLock$FairSync@f89de92 ??

Re: flink-sql 1.11整合hbase的查询性能问题

2020-08-27 文章 大罗
Hi Leonard, 我想强调,如果我在hive里定义一个external tabled读取指定的hdfs location,比如 "hive_external_table", 如下: CREATE EXTERNAL TABLE `hive_external_table`( `sid` int, `sname` string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' WITH SERDEPROPERTIES ( 'fi

Re: 关于sink失败 不消费kafka消息的处理

2020-08-27 文章 shizk233
Hi Eleanore, 我觉得是不一样的,差别就在于kafka auto commit发生在source算子消费了kafka event时(不会等待数据完成sink写入), 而chk机制提交offset发生在所有节点完成同一chk后。 虽然sink是stateless的,但这不妨碍它做chk。做chk的条件就是算子收到chk的barrier消息并且把barrier消息之前的数据处理完成。 所以chk机制提交offset时,可以保证之前的数据已经写入sink,是at least once的。 Eleanore Jin 于2020年8月28日周五 上午1:17写道: > 感谢大家的回

Re: Source 定时执行sql,只执行一次就close了source

2020-08-27 文章 shizk233
不太清楚你定时读mysql是需要做什么,如果是维表join的话考虑temporal table join[1],通过设置ttl时间和数量来更新缓存[2] [1] https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/streaming/temporal_tables.html [2] https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/connectors/jdbc.html#how-to-create-a-jdb

Re: flink1.11读取kafka问题

2020-08-27 文章 JasonLee
hi 首先是确认一下kafka是否有数据写入,其次把所有的operator都看下是否有反压的情况 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink-sql 1.11整合hbase的查询性能问题

2020-08-27 文章 Leonard Xu
Hi, 大罗 > 在 2020年8月28日,11:57,大罗 写道: > > > 你好,我想提两个问题,关于flink-sql整合hbase,问题列表如下: > 问题一:flink-sql通过hive catalog整合hbase后的查询执行计划,可否使用rowkey做精确filter而不是整表扫描。 > > 问题二:flink-sql > 查询hive的hbase外部表,是否没有通过HBaseStorageHandler正确解析INPUTFORMAT和OUTPUTFORMAT > 问题一: HbaseTableSource 目前没有支持 SupportsFilterPushD

Re: tidb Binlog 整库同步到 hive

2020-08-27 文章 Leonard Xu
Hi > 多路输出是个动态的,因为是整库的binlog ,不确定库中是否有新增表,作业要触发hive里面去创建表的动作。hive catalog create > table 是否可以在运行中来调用吗? > 程序启动之后生成的jobgraph运行中是不是不可以调整的?如果可以的话,是否有类似的案例可以参考。 用dataStream是会更灵活些,思路也差不多,在运行中可以调用的建表动作的,但是运行的拓扑是不可以动态调整的,不管DataStream 还是 SQL 的拓扑。 祝好 Leonard

Re: flink stream sink hive

2020-08-27 文章 Rui Li
Hello, 贴一下完整的stacktrace看看吧。流式写orc表有个已知问题 [1],可能是跟这个有关。 [1] https://issues.apache.org/jira/browse/FLINK-18659 On Thu, Aug 27, 2020 at 9:16 PM Congxian Qiu wrote: > Hi >从异常看,可能是类冲突了,或许是有两个版本的 `org.apache.orc.TypeDescription` 依赖,可以排除或者 shade > 一下相关的 class > Best, > Congxian > > > liya...@huim

flink-sql 1.11整合hbase的查询性能问题

2020-08-27 文章 大罗
你好,我想提两个问题,关于flink-sql整合hbase,问题列表如下: 问题一:flink-sql通过hive catalog整合hbase后的查询执行计划,可否使用rowkey做精确filter而不是整表扫描。 问题二:flink-sql 查询hive的hbase外部表,是否没有通过HBaseStorageHandler正确解析INPUTFORMAT和OUTPUTFORMAT 两个问题的具体情景如下: 我所使用的版本如下: Hadoop 3.0.0+cdh6.3.2 HDFS3.0.0+cdh6.3.2 HBase 2.1.0+cdh6.3.2

Re: 从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

2020-08-27 文章 zilong xiao
图挂了,用图床工具贴链接吧 范超 于2020年8月28日周五 上午11:37写道: > Hi, 大家好 > > Flink版本 1.10.0 > > > > 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。 > > 问题是由于升级程序,我使用了命令行 > > *bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid $yarnAppId* > > > > 将savepoint文件保存,然后再使用保存的savepoint来启动程序 > >

从savepoint 启动以后,无法在checkpoint页面看到last restore的相关信息

2020-08-27 文章 范超
Hi, 大家好 Flink版本 1.10.0 目前程序的checkpoint使用rocksdb的方式存储在hdfs上,在sink失败的时候能够正常从上一个checkpoint点恢复。 问题是由于升级程序,我使用了命令行 bin/flink stop -p ${hdfsSavepointDir} -d $runningJobId -yid $yarnAppId 将savepoint文件保存,然后再使用保存的savepoint来启动程序 /bin/flink run -d -m yarn-cluster -p ${parallelism} -yjm ${jm} -ytm ${tm} $fu

Re: tidb Binlog 整库同步到 hive

2020-08-27 文章 Qishang
Hi Leonard. > 除了多个sql作业的方式,如果需要在一个SQL作业中可以试试在一个作业里把所有表的binlog 格式统一用一个字段(如string) 接入,然后写针对每个表的schema写一个udtf解析对应的数据,最后多路输出到hive的不同表。 如果不限定SQL作业的话,用DataSteam API的话是不是可以实现这样的功能。 多路输出是个动态的,因为是整库的binlog ,不确定库中是否有新增表,作业要触发hive里面去创建表的动作。hive catalog create table 是否可以在运行中来调用吗? 程序启动之后生成的jobgraph运行中是不是不可以调整

Re: Re: Flink 维表延迟join

2020-08-27 文章 gongpu...@163.com
采用自定义Source读取维表,做成流,双流join,在KeyedCoProcessFunction中将维表维护在state里面 gongpu...@163.com 发件人: 魏烽 发送时间: 2020-08-28 10:49 收件人: user-zh 抄送: Jark Wu 主题: Re: Flink 维表延迟join 您好,感谢回复: 意思是原始数据用批的方式,然后维表也用批的方式读取进行,进行两个流的join嘛 但是为了程序的扩展性,原始数据只能按照流的方式来读,因为会有其它的需要流的场景 原始邮件 发件人: Benchao Li 收件人: user-zh 抄送:

?????? ProcessWindowFunction??????clear??????????????????-v1.10.1

2020-08-27 文章 x
??8?? .window(TumblingEventTimeWindows.of(Time.days(1), Time.hours(-8))) --  -- ??: "x"

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Yun Tang
Congratulations , Dian! Best Yun Tang From: Yang Wang Sent: Friday, August 28, 2020 10:28 To: Arvid Heise Cc: Benchao Li ; dev ; user-zh ; Dian Fu ; user Subject: Re: [ANNOUNCE] New PMC member: Dian Fu Congratulations Dian ! Best, Yang Arvid Heise mailto:a

Re: Flink Kafka作业异常重启,从Checkpoint恢复后重复推送数据部分数据如何处理?

2020-08-27 文章 Kevin Dai
谢谢您的回复,刚也看到官方文档DataStream的Kafka连接器中也有相关说明。 -- Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink prometheus 无法上报accumulator类型监控吗

2020-08-27 文章 赵一旦
hi,有人回答下这个问题吗。 赵一旦 于2020年8月21日周五 下午4:20写道: > 如题,没找到accumulator类型数据,metric之类找到了,但是accumulator类没找到。 >

Re: flink1.11????kafka????

2020-08-27 文章 ??????
0??

Re: Flink 维表延迟join

2020-08-27 文章 魏烽
您好,感谢回复: 意思是原始数据用批的方式,然后维表也用批的方式读取进行,进行两个流的join嘛 但是为了程序的扩展性,原始数据只能按照流的方式来读,因为会有其它的需要流的场景 原始邮件 发件人: Benchao Li 收件人: user-zh 抄送: Jark Wu 发送时间: 2020年8月28日(周五) 10:28 主题: Re: Flink 维表延迟join 这种场景是不是可以直接用批的方式来处理呢?那就不需要维表了,正常join即可, 这样可以用到批里面一些特有的join优化。 魏烽 mailto:weif...@nequal.com>> 于2020年8月28日周五

Re: Flink 维表延迟join

2020-08-27 文章 Jark Wu
我们有一个 issue 就是去支持维表 join 文件系统的(包括静态的,和缓慢变化的)。 https://issues.apache.org/jira/browse/FLINK-17397 一种思路是复用现有的 filesystem scan 的能力,temporal join 算子将 filesystem 的数据放在 state 里,然后主流数据去 lookup state。 Best, Jark On Fri, 28 Aug 2020 at 10:28, Benchao Li wrote: > 这种场景是不是可以直接用批的方式来处理呢?那就不需要维表了,正常join即可, >

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Yang Wang
Congratulations Dian ! Best, Yang Arvid Heise 于2020年8月28日周五 上午1:39写道: > Congrats Dian :) > > On Thu, Aug 27, 2020 at 5:01 PM Benchao Li wrote: > >> Congratulations Dian! >> >> Cranmer, Danny 于2020年8月27日周四 下午10:55写道: >> >>> Congratulations Dian! :D >>> >>> On 27/08/2020, 15:25, "Robert M

Re: Flink 维表延迟join

2020-08-27 文章 Benchao Li
这种场景是不是可以直接用批的方式来处理呢?那就不需要维表了,正常join即可, 这样可以用到批里面一些特有的join优化。 魏烽 于2020年8月28日周五 上午9:58写道: > 各位好: > > > 现在有一个应用场景是使用流的方式读取hdfs文件进行处理(StreamEnv.readTextFile),实际可以看成是批处理,现需要进行维表join,维表不会变更,现有两种方案: > > 1.直接将维表一次性加载到内存进行join; > > 2.使用mysql或者hbase外部存储每条数据进行查询join; > > 但是方案一不能保证数据量一定可以全部加载到内存,方案二又需要额外的外

Re: Flink Kafka作业异常重启,从Checkpoint恢复后重复推送数据部分数据如何处理?

2020-08-27 文章 Congxian Qiu
Hi checkpoint 只能保证 state 的 exactly once,但是单条数据可能重复处理多次,如果是 sink 输出多次的话,或许你可以看一下 TwoPhaseCommitSinkFunction 相关的,这篇文章有一个相关的描述[1] [1] https://www.ververica.com/blog/end-to-end-exactly-once-processing-apache-flink-apache-kafka Best, Congxian Kevin Dai <154434...@qq.com> 于2020年8月28日周五 上午9:44写道: >

Re: flink on yarn日志问题

2020-08-27 文章 zilong xiao
如果是用命令行的方式提交作业,可以在环境变量中获取APP IP,在作业以pre job方式提交到集群时,会执行 launch_container.sh ,里面export了很多变量,其中就有_APP_ID Jim Chen 于2020年8月27日周四 下午6:17写道: > 能分享一下demo吗? > > Ca

Re: Flink 维表延迟join

2020-08-27 文章 魏烽
各位好: 现在有一个应用场景是使用流的方式读取hdfs文件进行处理(StreamEnv.readTextFile),实际可以看成是批处理,现需要进行维表join,维表不会变更,现有两种方案: 1.直接将维表一次性加载到内存进行join; 2.使用mysql或者hbase外部存储每条数据进行查询join; 但是方案一不能保证数据量一定可以全部加载到内存,方案二又需要额外的外部存储,增加了系统结构的复杂度 请问各位有什么更好的建议嘛?感谢 原始邮件 发件人: Leonard Xu 收件人: Jark Wu 抄送: user-zh; Benchao Li 发送时间: 2020年8月2

答复: 关于sink失败 不消费kafka消息的处理

2020-08-27 文章 范超
感谢 Venn -邮件原件- 发件人: venn [mailto:wxchunj...@163.com] 发送时间: 2020年8月26日 星期三 18:57 收件人: user-zh@flink.apache.org 主题: RE: 关于sink失败 不消费kafka消息的处理 可以参考下这个: https://www.cnblogs.com/bethunebtj/p/9168274.html#5-%E4%B8%BA%E6%89%A7%E8%A1%8C%E4%BF%9D%E9%A9%BE%E6%8A%A4%E8%88%AAfault-tolerant%E4%B8%8

Flink Kafka作业异常重启,从Checkpoint恢复后重复推送数据部分数据如何处理?

2020-08-27 文章 Kevin Dai
Flink ETL作业生成实时DWD宽表数据,写入Kafka中。 当ETL作业的TM出现异常,自动重启恢复后,作业虽然能从上一次Checkpoint状态恢复,但是会出现重复推送部分数据,导致下游DWS相关作业都要进行去重处理,增加下游作业成本。 想了下解决方案,扩展Kafka Sink,初始化的时候,先读取当前State中记录的位置后面的所有数据,然后写入的时候进行去重处理,恢复到正常位置后,清理掉这部分数据。 想问下大佬们,这种处理方式是否合理,或者有没其他更好的解决方案? -- Sent from: http://apache-flink.147419.n8.nabble.com/

一个main方法启动2个yarn job问题

2020-08-27 文章 air23
你好。我有一个接kafka 写入tidb的任务 为什么会启动2个yarn任务去运行呢? 我是先用datastream 接入kafka。然后转成table sql写入到tidb 2个job name 一个叫Env.execute配置的名字 一个是叫insert 写入tidb的sql语句名字

Re: flink1.11读取kafka问题

2020-08-27 文章 Leonard Xu
Hi 是不是下游(sink mysql)反压了导致上游不再消费了,可以通过看看webui的指标[1]确定下。 祝好 Leonard [1]https://ci.apache.org/projects/flink/flink-docs-master/zh/monitoring/back_pressure.html > 在 2020年8月28日,09:22,小学生 <201782...@qq.com> 写道

Re: tidb Binlog 整库同步到 hive

2020-08-27 文章 Leonard Xu
Hi, qishang > 1. 好像 Flink SQL 里面只能一个数据源 kafka 到一张Hive表,一个Topic是否可以根据解析的表不同插入到不同的Hive表吗 ? > 我看了一些邮件好像说不可以的,在问一下。 在一个SQL作业中是不行的,因为SQL是强依赖Schema的,schema需要事先声明。 > 2. 或者有什么好的解决方式吗?因为数据量都不是很大,表比较多,每个表都要维护一个任务的话,代价比较大。 除了多个sql作业的方式,如果需要在一个SQL作业中可以试试在一个作业里把所有表的binlog 格式统一用一个字段(如string) 接入,然后写针对每个表的sch

flink1.11????kafka????

2020-08-27 文章 ??????
??Linux??kafkamysql??mysql1flinkkafka7??8??

?????? ?????? ????????????checkpoint????

2020-08-27 文章 Robert.Zhang
Hi Yun and CongXian Source??kafkaconsumer ??map?? iteration headprocessinput??overwrite?? ?? stream taskmailbox?? ??overwrite?

Re: 关于sink失败 不消费kafka消息的处理

2020-08-27 文章 Eleanore Jin
感谢大家的回答, 我用的是APACHE BEAM, 然后RUNNER 用的是Flink, 这里是Beam 提供的KAFKA 的CONNECTOR, 如果看source 的话,它是有state checkpointed: Beam KafkaIO KafkaUnboundedReader 但是看sink, 它没有任何st

?????? Flink??????????????????????

2020-08-27 文章 Sun_yijia
~ --  -- ??: "user-zh"

??????RE: Flink??????????????????????

2020-08-27 文章 Sun_yijia
--  -- ??: "user-zh"

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Matt Wang
Congratulations Dian! -- Best, Matt Wang On 08/27/2020 23:01,Benchao Li wrote: Congratulations Dian! Cranmer, Danny 于2020年8月27日周四 下午10:55写道: Congratulations Dian! :D On 27/08/2020, 15:25, "Robert Metzger" wrote: CAUTION: This email originated from outside of the organization. Do not cli

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Benchao Li
Congratulations Dian! Cranmer, Danny 于2020年8月27日周四 下午10:55写道: > Congratulations Dian! :D > > On 27/08/2020, 15:25, "Robert Metzger" wrote: > > CAUTION: This email originated from outside of the organization. Do > not click links or open attachments unless you can confirm the sender and

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Robert Metzger
Congratulations Dian! On Thu, Aug 27, 2020 at 3:09 PM Congxian Qiu wrote: > Congratulations Dian > Best, > Congxian > > > Xintong Song 于2020年8月27日周四 下午7:50写道: > > > Congratulations Dian~! > > > > Thank you~ > > > > Xintong Song > > > > > > > > On Thu, Aug 27, 2020 at 7:42 PM Jark Wu wrote: > >

tidb Binlog 整库同步到 hive

2020-08-27 文章 Qishang
大家好 . 我现在有一个场景需要调研。 背景:对整库 Tidb binlog 做实时落 Hive,好几个库的binlog发送到一个Topic或者几个Topic里面,一个Topic里面有复数个表的binlog。 1. 好像 Flink SQL 里面只能一个数据源 kafka 到一张Hive表,一个Topic是否可以根据解析的表不同插入到不同的Hive表吗 ? 我看了一些邮件好像说不可以的,在问一下。 2. 或者有什么好的解决方式吗?因为数据量都不是很大,表比较多,每个表都要维护一个任务的话,代价比较大。 感谢!

Re: 求助:实时计算累计UV时,为什么使用MapState和BloomFilter,在checkpoint时的状态大小没有差异

2020-08-27 文章 Congxian Qiu
Hi Checkpoint 的 size 取决于 state 的大小(如果是 RocksDBStateBackend + 增量 checkpoint,界面看到的 Checkpointed Data Size 是增量大小[1])。如果你把 BloomFilter 存到 State 中的话,那么需要看看最终在 State 中存储的内容大小。 如果有疑问的话,可以分析一下分别使用 bloomfilter 和 mapstate,在相同的数据更新后,state 中的数据分别有多少 [1] https://ci.apache.org/projects/flink/flink-docs-

Re: 回复: 流处理任务中checkpoint失败

2020-08-27 文章 Congxian Qiu
Hi 从代码暂时没有看出问题,不确定 迭代 作业的 checkpoint 是否有特殊的地方,我抄送了一个对迭代这块更了解的人(Yun Gao),或许他在这块有一些建议 Best, Congxian Yun Tang 于2020年8月27日周四 下午5:10写道: > Hi Robert > > 你的两个source > firstSource和secondSource是自己实现的么,一种怀疑是source在没有数据时持锁[1][2]导致checkpoint > barrier并没有下发。 > 建议使用jstack查看在没有数据下发时,source相关task的java调用栈,

Re: flink stream sink hive

2020-08-27 文章 Congxian Qiu
Hi 从异常看,可能是类冲突了,或许是有两个版本的 `org.apache.orc.TypeDescription` 依赖,可以排除或者 shade 一下相关的 class Best, Congxian liya...@huimin100.cn 于2020年8月27日周四 下午8:18写道: > Exception in thread "main" java.lang.NoSuchMethodError: > org.apache.orc.TypeDescription.fromString(Ljava/lang/String;)Lorg/apache/orc/TypeDesc

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Congxian Qiu
Congratulations Dian Best, Congxian Xintong Song 于2020年8月27日周四 下午7:50写道: > Congratulations Dian~! > > Thank you~ > > Xintong Song > > > > On Thu, Aug 27, 2020 at 7:42 PM Jark Wu wrote: > > > Congratulations Dian! > > > > Best, > > Jark > > > > On Thu, 27 Aug 2020 at 19:37, Leonard Xu wrote: >

Re: DDL中声明主键会报类型不匹配

2020-08-27 文章 Jark Wu
你可以试用下 新版的 connector ('connector' = 'kafka'),对于类型的处理要完善很多。 Best, Jark On Wed, 26 Aug 2020 at 20:46, Danny Chan wrote: > 是的 加了 primary key constraint 后会强制将类型转成 Not nullable,这个是 primary key 的特性导致的。 > > Best, > Danny Chan > 在 2020年8月20日 +0800 PM5:19,xiao cai ,写道: > > Hi: > > flink版本1.11.0 connecto

Re: Flink SQL Map类型字段大小写不敏感支持

2020-08-27 文章 zilong xiao
是的,就是希望能忽略大小写,有尝试过用UDF去支持忽略大小写,但是取值的效率会比较低,然后脑洞比较大,跑来社区问问未来有没有可能在定义表DDL时,提供一个可选配置,用于开关是否忽略大小写,不过感觉这个可能不太好搞吧,自己的一个小脑洞而已,还是非常感谢几位大佬的回复~ Jark Wu 于2020年8月27日周四 下午8:01写道: > 额,我觉得楼上的理解错楼主的意思了吧。 > > 如果我理解的没错,楼主的意思是取 MAP 中的值的时候,key 能忽略大小写。 比如 my_map['ab'] 能取到 'aB', 'Ab' > 的数据。 > > 我觉得这个需求有点违反 map 的行为了,

Re: Re: 请问一下,flink 1.11 的cdc历史数据问题

2020-08-27 文章 Jark Wu
Hi, debezium 是支持全量加载的。debezium 的一个亮点就是能够加载完存量数据以后能够无缝切换到 binlog 模式。 全量加载可以看下 SnapshotReader。 另外,全量数据导入到 kafka ,然后从 kafka 加载全量再切换到 mysql binlog,这里面主要一个问题是很难做到无缝切换,因为不知道确切的 mysql binlog 位点。 Best, Jark On Tue, 25 Aug 2020 at 12:47, dixingxin...@163.com wrote: > Hi: > Leonard Xu 感谢回复 > > 2.debezi

回复: flink stream sink hive

2020-08-27 文章 liya...@huimin100.cn
flink1.11.1 往hive2.1.1 的orc表写数据报的异常,在网上查不到,只能来这里了,麻烦大佬们帮我看看 liya...@huimin100.cn

Re: 【闫云鹏】Flink cdc 连接mysql5.7.25报错

2020-08-27 文章 Jark Wu
Hi, 首先 debezium 写死了去找 "com.mysql.cj.jdbc.Driver" 这个 Driver,所以依赖强制换成 5.x 的 driver 是行不通的。 其次,debezium 使用的是 8.0 的 driver,是能兼容去连 5.7.25 的 mysql 的。 我看你报是的 CLIENT_PLUGIN_AUTH 的错误,可以查一下你的 mysql 之上是不是有一层 proxy,可能是这个 proxy 导致的。 Best, Jark On Wed, 26 Aug 2020 at 16:53, Yan,Yunpeng(DXM,PB) wrote: > Hi >

Re: Flink 维表延迟join

2020-08-27 文章 Leonard Xu
多谢 Jark 提议 Issue[1] 建好了, 大家可以在issue下讨论。 祝好 Leonard [1] https://issues.apache.org/jira/browse/FLINK-19063 > 在 2020年8月27日,19:54,Jark Wu 写道: > > @Leonard 可以先建个 issue,收集下大家的需求,大家也可以在 issue 下讨论下解决思路。 > > On Thu, 27 Aug 2020 at 11:12, Leonard X

Re: flink sql在实时数仓中,关联hbase维表频繁变化的问题

2020-08-27 文章 Jark Wu
这种大吞吐、低延迟的维表关联,感觉得等 cdc 模式的维表 join 才行。 On Tue, 25 Aug 2020 at 15:02, Jim Chen wrote: > 我们的维表,大概10个亿左右。每秒大概有4万的请求,要去查询,所以mysql扛不住。 还有就是维表数据变化后,需要秒级进行更新和关联的 > > china_tao 于2020年8月18日周二 下午11:13写道: > > > 个人觉得还是取舍的问题,我们现在用flink sql 做实时数仓,维度表暂时用mysql,与业务商定好更新事件后,配置flink sql > > jdbc的lookup.cache.tt

Re: Flink SQL Map类型字段大小写不敏感支持

2020-08-27 文章 Jark Wu
额,我觉得楼上的理解错楼主的意思了吧。 如果我理解的没错,楼主的意思是取 MAP 中的值的时候,key 能忽略大小写。 比如 my_map['ab'] 能取到 'aB', 'Ab' 的数据。 我觉得这个需求有点违反 map 的行为了,在所有的编程语言中,map 的 key 都是只能对应唯一一个 value 的,大小写要严格匹配的。 如果想要实现这种效果,你可以先将原先的 map 转成小写后的 key,value 为原先 'aB', 'Ab' ... 的 value list。 Best, Jark On Thu, 27 Aug 2020 at 09:56, zilong

Re: Flink 维表延迟join

2020-08-27 文章 Jark Wu
@Leonard 可以先建个 issue,收集下大家的需求,大家也可以在 issue 下讨论下解决思路。 On Thu, 27 Aug 2020 at 11:12, Leonard Xu wrote: > > Hi, all > > 看起来维表延迟join是一个common case, 我在邮件列表里看到蛮多小伙伴反馈了, > 感觉可以考虑支持下 维表 延迟 join,大家可以一起分享下主要的业务场景吗? > > Best > Leonard > > > 在 2020年8月27日,10:39,china_tao 写道: > > > > 一般来说,是先有维表数据,再有流数据。如果出现了

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Xintong Song
Congratulations Dian~! Thank you~ Xintong Song On Thu, Aug 27, 2020 at 7:42 PM Jark Wu wrote: > Congratulations Dian! > > Best, > Jark > > On Thu, 27 Aug 2020 at 19:37, Leonard Xu wrote: > > > Congrats, Dian! Well deserved. > > > > Best > > Leonard > > > > > 在 2020年8月27日,19:34,Kurt Young

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Jark Wu
Congratulations Dian! Best, Jark On Thu, 27 Aug 2020 at 19:37, Leonard Xu wrote: > Congrats, Dian! Well deserved. > > Best > Leonard > > > 在 2020年8月27日,19:34,Kurt Young 写道: > > > > Congratulations Dian! > > > > Best, > > Kurt > > > > > > On Thu, Aug 27, 2020 at 7:28 PM Rui Li wrote: > > > >>

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Leonard Xu
Congrats, Dian! Well deserved. Best Leonard > 在 2020年8月27日,19:34,Kurt Young 写道: > > Congratulations Dian! > > Best, > Kurt > > > On Thu, Aug 27, 2020 at 7:28 PM Rui Li wrote: > >> Congratulations Dian! >> >> On Thu, Aug 27, 2020 at 5:39 PM Yuan Mei wrote: >> >>> Congrats! >>> >>> On T

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Kurt Young
Congratulations Dian! Best, Kurt On Thu, Aug 27, 2020 at 7:28 PM Rui Li wrote: > Congratulations Dian! > > On Thu, Aug 27, 2020 at 5:39 PM Yuan Mei wrote: > >> Congrats! >> >> On Thu, Aug 27, 2020 at 5:38 PM Xingbo Huang wrote: >> >>> Congratulations Dian! >>> >>> Best, >>> Xingbo >>> >>> ji

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Rui Li
Congratulations Dian! On Thu, Aug 27, 2020 at 5:39 PM Yuan Mei wrote: > Congrats! > > On Thu, Aug 27, 2020 at 5:38 PM Xingbo Huang wrote: > >> Congratulations Dian! >> >> Best, >> Xingbo >> >> jincheng sun 于2020年8月27日周四 下午5:24写道: >> >>> Hi all, >>> >>> On behalf of the Flink PMC, I'm happy to

Re: 关于flink任务的日志收集到kafka,可以在logback配置文件中,加如每个job的id或者name吗?

2020-08-27 文章 zilong xiao
如果是用CLI方式提交作业的话是可以做到的 Jim Chen 于2020年8月27日周四 下午6:13写道: > 如果是自动以PatternLayout的话,我有几点疑问: > > 1、logback加载时机的问题,就是①先会运行logback相关类,②再执行你自定义的PatternLayout,③再去执行你的主类,在②的时候,此时还没法确定具体的启动类是啥,这种方式没法根据job动态变化 > > 如果使用env的话 > 1、配置环境变量的话,如果yarn有10个节点。那么每台是不是都要配置一下 > 2、因为是每个job都要传递,所以,这个应该是临时的环境变量吧 > 3、如果是配置的临

Re: 关于flink任务的日志收集到kafka,可以在logback配置文件中,加如每个job的id或者name吗?

2020-08-27 文章 zilong xiao
想确认下你是用什么方式提交作业呢?是CLI吗? Jim Chen 于2020年8月27日周四 下午6:13写道: > 如果是自动以PatternLayout的话,我有几点疑问: > > 1、logback加载时机的问题,就是①先会运行logback相关类,②再执行你自定义的PatternLayout,③再去执行你的主类,在②的时候,此时还没法确定具体的启动类是啥,这种方式没法根据job动态变化 > > 如果使用env的话 > 1、配置环境变量的话,如果yarn有10个节点。那么每台是不是都要配置一下 > 2、因为是每个job都要传递,所以,这个应该是临时的环境变量吧 > 3、如果是配置

flink stream sink hive

2020-08-27 文章 liya...@huimin100.cn
flink1.11.1 往hive2.1.1 的orc表写数据报的异常,在网上查不到,只能来这里了,麻烦大佬们帮我看看 liya...@huimin100.cn

Re: Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Yangze Guo
Congrats Dian! Best, Yangze Guo On Thu, Aug 27, 2020 at 6:26 PM Zhu Zhu wrote: > > Congratulations Dian! > > Thanks, > Zhu > > Zhijiang 于2020年8月27日周四 下午6:04写道: > > > Congrats, Dian! > > > > -- > > From:Yun Gao > > Send Time:2020年8

Re: Flink SQL 有提供参数支持大小写不敏感吗?

2020-08-27 文章 Tianwang Li
thx 期待这个功能。 Danny Chan 于2020年8月27日周四 下午4:12写道: > Hi ~ > > 要开启大小写不敏感涉及的东西比较多,例如词法解析,catalog 以及部分访问表达式 (a.b.c 或者 a[‘f0’]),社区已经有 issue > 跟进了 [1],预期在 1.12 版本可以解决。 > > [1] https://issues.apache.org/jira/browse/FLINK-16175 > > Best, > Danny Chan > 在 2020年8月27日 +0800 PM3:52,Tianwang Li ,写道: > > 我们对用户在使

quickstart工程默认的log不打印到console

2020-08-27 文章 Qishang
我从 flink-quickstart-java 1.11.1 建的工程,IDEA console log 默认是没有打印的。 pom 里面的 jar 换成 1.10 的2个就可以打印了。 是有问题还是我的姿势不对。。 1.10的 jar : org.slf4j slf4j-log4j12 1.7.7 runtime log4j log4j 1.2.17 run

Re: Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Zhu Zhu
Congratulations Dian! Thanks, Zhu Zhijiang 于2020年8月27日周四 下午6:04写道: > Congrats, Dian! > > -- > From:Yun Gao > Send Time:2020年8月27日(星期四) 17:44 > To:dev ; Dian Fu ; user < > u...@flink.apache.org>; user-zh > Subject:Re: Re: [ANNOUNC

Re: flink on yarn日志问题

2020-08-27 文章 Jim Chen
能分享一下demo吗? Cayden chen <1193216...@qq.com> 于2020年7月15日周三 下午2:56写道: > 我们的获取逻辑是通过定义 > logback的appder,appder通过解析当前系统路径(因为flink每个taskmanager会自己定义一个带有applicationId的路径,然后里面会放各种jar包,包括我自定义的appder),获取之后通过MDC.put(),给日志加一列appId,在appder里面把日志上报到外部的日志系统 > > > > > -- 原始邮件 -- >

Re: 关于flink任务的日志收集到kafka,可以在logback配置文件中,加如每个job的id或者name吗?

2020-08-27 文章 Jim Chen
如果是自动以PatternLayout的话,我有几点疑问: 1、logback加载时机的问题,就是①先会运行logback相关类,②再执行你自定义的PatternLayout,③再去执行你的主类,在②的时候,此时还没法确定具体的启动类是啥,这种方式没法根据job动态变化 如果使用env的话 1、配置环境变量的话,如果yarn有10个节点。那么每台是不是都要配置一下 2、因为是每个job都要传递,所以,这个应该是临时的环境变量吧 3、如果是配置的临时环境变量的话,那么在执行bin/flink run的时候,shell中是执行java -cp的,此时的主类,是org.apache.flink.

Re: 关于flink任务的日志收集到kafka,可以在logback配置文件中,加如每个job的id或者name吗?

2020-08-27 文章 Jim Chen
如果使用env的话,我有几点疑问: 1、配置环境变量的话,如果yarn有10个节点。那么每台是不是都要配置一下 2、因为是每个job都要传递,所以,这个应该是临时的环境变量吧 3、如果是配置的临时环境变量的话,那么在执行bin/flink run的时候,shell中是执行java -cp的,此时的主类,是org.apache.flink.client.cli.CliFrontend,这种方式,环境变量在传递的时候,会丢吧? Yang Wang 于2020年8月26日周三 上午10:17写道: > 我建议可以通env的方式传,在logback或者log4j配置中直接引用相应的env >

Re: Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Zhijiang
Congrats, Dian! -- From:Yun Gao Send Time:2020年8月27日(星期四) 17:44 To:dev ; Dian Fu ; user ; user-zh Subject:Re: Re: [ANNOUNCE] New PMC member: Dian Fu Congratulations Dian ! Best Yun ---

Re: Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Yun Gao
Congratulations Dian ! Best Yun -- Sender:Marta Paes Moreira Date:2020/08/27 17:42:34 Recipient:Yuan Mei Cc:Xingbo Huang; jincheng sun; dev; Dian Fu; user; user-zh Theme:Re: [ANNOUNCE] New PMC member: Dian Fu Congrats, Dian! On

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Paul Lam
Congrats, Dian! Best, Paul Lam > 2020年8月27日 17:42,Marta Paes Moreira 写道: > > Congrats, Dian! > > On Thu, Aug 27, 2020 at 11:39 AM Yuan Mei > wrote: > Congrats! > > On Thu, Aug 27, 2020 at 5:38 PM Xingbo Huang > wrote: > Congratulatio

Re: [ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 Xingbo Huang
Congratulations Dian! Best, Xingbo jincheng sun 于2020年8月27日周四 下午5:24写道: > Hi all, > > On behalf of the Flink PMC, I'm happy to announce that Dian Fu is now part > of the Apache Flink Project Management Committee (PMC). > > Dian Fu has been very active on PyFlink component, working on various >

[ANNOUNCE] New PMC member: Dian Fu

2020-08-27 文章 jincheng sun
Hi all, On behalf of the Flink PMC, I'm happy to announce that Dian Fu is now part of the Apache Flink Project Management Committee (PMC). Dian Fu has been very active on PyFlink component, working on various important features, such as the Python UDF and Pandas integration, and keeps checking an

Re: 回复: 流处理任务中checkpoint失败

2020-08-27 文章 Yun Tang
Hi Robert 你的两个source firstSource和secondSource是自己实现的么,一种怀疑是source在没有数据时持锁[1][2]导致checkpoint barrier并没有下发。 建议使用jstack查看在没有数据下发时,source相关task的java调用栈,观察是否存在等待锁释放 [1] https://github.com/apache/flink/blob/162e3ead63e5766cf2116af09922a88537889e53/flink-streaming-java/src/main/java/org/apache/flink/s

Re: 回复: Source 定时执行sql,只执行一次就close了source

2020-08-27 文章 gongpu...@163.com
自定义Source,在run方法中定时读取,可参照flink-example自定义Source例子:https://github.com/apache/flink/blob/master/flink-examples/flink-examples-streaming/src/main/scala/org/apache/flink/streaming/scala/examples/windowing/SessionWindowing.scala gongpu...@163.com 发件人: gongpu...@163.com 发送时间: 2020-08-27 16:21 收件人: z

回复: Source 定时执行sql,只执行一次就close了source

2020-08-27 文章 gongpu...@163.com
HI,我需要定时从MySQL中读取维表的数据,但是source的方法执行一遍就结束了,按open、run、close按序执行一遍,我在open方法中定义了ScheduledExecutorService来实现定时读取数据,但是job异常的时候这个线程无法被cancled,恢复策略会无线重启job,导致线程越来越多,想问问定时读维表有什么好的实现方法吗?

?????? [????????] Stream SQL window join ????

2020-08-27 文章 Cayden chen
hi ??window??trigger??evitor?? --  -- ??: "user-zh"

Re: [ANNOUNCE] Apache Flink 1.10.2 released

2020-08-27 文章 Zhijiang
Congrats, thanks for the release manager work Zhu Zhu and everyone involved in! Best, Zhijiang -- From:liupengcheng Send Time:2020年8月26日(星期三) 19:37 To:dev ; Xingbo Huang Cc:Guowei Ma ; user-zh ; Yangze Guo ; Dian Fu ; Zhu Zhu ; us

Re: Flink SQL 有提供参数支持大小写不敏感吗?

2020-08-27 文章 Danny Chan
Hi ~ 要开启大小写不敏感涉及的东西比较多,例如词法解析,catalog 以及部分访问表达式 (a.b.c 或者 a[‘f0’]),社区已经有 issue 跟进了 [1],预期在 1.12 版本可以解决。 [1] https://issues.apache.org/jira/browse/FLINK-16175 Best, Danny Chan 在 2020年8月27日 +0800 PM3:52,Tianwang Li ,写道: > 我们对用户在使用习惯了Hive之后,在写一些flink sql对时候经常碰到大小写对困扰。 > 使用对是默认对catalog。 > > ``` > C

Re:Re: Flink SQL 问题;

2020-08-27 文章 air23
这个需要单独 导入到服务器lib下面吗 我的本地pom文件 是有引入的 在 2020-08-27 15:32:49,"Lin Hou" 写道: >jdbc connector jar没有导入线上集群,去官网上下载或者自己编译吧 > >air23 于2020年8月27日周四 下午3:11写道: > >> 你好 我用idea本地运行的jdbc sink没有问题。但是在服务器上运行报错如下 >> >> >> 麻烦帮忙看下什么问题 是1.11 版本的 >> >> >> 'connector'='jdbc' >> 'password'='' >> 's

Flink SQL 有提供参数支持大小写不敏感吗?

2020-08-27 文章 Tianwang Li
我们对用户在使用习惯了Hive之后,在写一些flink sql对时候经常碰到大小写对困扰。 使用对是默认对catalog。 ``` Caused by: org.apache.calcite.sql.validate.SqlValidatorException: Column 'uid' not found in any table; did you mean 'Uid'? at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflect.NativeConstru

Re: [需求调研] Stream SQL window join 支持

2020-08-27 文章 Dream-底限
我先前遇到的是,两个流在同一个窗口上求某个字段的count比例,比如求上一个小时购买对访问求比 Danny Chan 于2020年8月27日周四 下午2:48写道: > 大家好 ~ > > 这里做一个 window-join[1] 的需求调研, window-join 是 Flink DataStream 上已经有的 feature. > 目标是决策是否要在 SQL 上支持该特性, 例如, tumbling window join 语法可能长这样: > > ```sql > select ... window_start, window_end > from TABLE( > TU

Source 定时执行sql,只执行一次就close了source

2020-08-27 文章 zhao liang
HI,我需要定时从MySQL中读取维表的数据,但是source的方法执行一遍就结束了,按open、run、close按序执行一遍,我在open方法中定义了ScheduledExecutorService来实现定时读取数据,但是job异常的时候这个线程无法被cancled,恢复策略会无线重启job,导致线程越来越多,想问问定时读维表有什么好的实现方法吗?

Re: Flink SQL 问题;

2020-08-27 文章 Lin Hou
jdbc connector jar没有导入线上集群,去官网上下载或者自己编译吧 air23 于2020年8月27日周四 下午3:11写道: > 你好 我用idea本地运行的jdbc sink没有问题。但是在服务器上运行报错如下 > > > 麻烦帮忙看下什么问题 是1.11 版本的 > > > 'connector'='jdbc' > 'password'='' > 'sink.buffer-flush.interval'='10s' > 'sink.buffer-flush.max-rows'='500' > 'table-name'='flink_test3' > 'url

Flink SQL 问题;

2020-08-27 文章 air23
你好 我用idea本地运行的jdbc sink没有问题。但是在服务器上运行报错如下 麻烦帮忙看下什么问题 是1.11 版本的 'connector'='jdbc' 'password'='' 'sink.buffer-flush.interval'='10s' 'sink.buffer-flush.max-rows'='500' 'table-name'='flink_test3' 'url'='jdbc:mysql://**:4000/test' 'username'='root' at org.apache.flink.table.factori

Re: Re: pyflink kafka connector的问题

2020-08-27 文章 Wanmail1997
感谢您的解答,问题解决了。 > -- 原始邮件 -- > 发 件 人:"Xingbo Huang" > 发送时间:2020-08-27 09:51:49 > 收 件 人:user-zh > 抄 送: > 主 题:Re: pyflink kafka connector的问题 > > Hi, > > 你的DDL没有问题,问题应该是你没有把kafka的jar包添加进来。你可以到 > https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/co