flink??????DDL????????????????????????????

2020-09-25 文章 kcz
??if ??

Re: flink sql 1.11.2 jdbc connector 按月分表读取

2020-09-25 文章 Peihui He
是我这边建issue不? 这里还发现一个问题 select count(*) from mysql_table 不能执行。 Best wishes. Jark Wu 于2020年9月25日周五 上午10:37写道: > 我觉得是个挺好的需求,有点类似于 Kafka 的 multi topic 功能,可以先建个 issue 收集下大家的需求。 > > > Best, > Jark > > On Thu, 24 Sep 2020 at 17:26, Peihui He wrote: > > > Hi, all > > > > 测试发现flink sql jdbc mysql

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 Xiao Xu
直接扣命令行里提交任务的代码, https://ci.apache.org/projects/flink/flink-docs-stable/ops/cli.html, 这边都是 java 实现的, 转到 spring boot 没啥难度 xiao cai 于2020年9月25日周五 下午5:28写道: > Hi zilong: > > 这种方式我考虑过,个人认为平台层面如果有业务逻辑的侵入,会影响后续的升级。所以我们是在标注输出中正则匹配出jobId和applicationId。你了解YarnClusterDescripto吗?之前社区看到有人用这个提交的。 > > > 原始邮件

关于sql中null值设置watermark

2020-09-25 文章 Kyle Zhang
Hi, 我在flink1.11 create ddl中使用 WATERMARK FOR wm AS wm - INTERVAL '5’ SECOND 设置watermark,当有脏数据的时候wm为null,就会报RowTime field should not be null, please convert it to a non-null long value.有没有好的方法直接忽略脏数据。 Best

Re: flink 1.9.2 升级 1.10.0 任务失败不能从checkpoint恢复

2020-09-25 文章 Robin Zhang
Hi,Tang老师, 抱歉,之前理解有误,感谢唐老师指正。祝好,Robin Zhang Yun Tang wrote > Hi Robin其实你的说法不是很准确,社区是明文保证savepoint的兼容性 > [1],但是并不意味着跨大版本时无法从checkpoint恢复,社区不承诺主要还是维护其太耗费精力,但是实际从代码角度来说,在合理使用state > schema evolution

Re: 执行mvn构建错误

2020-09-25 文章 迟成
你好! 我使用了3.2.5和3.6.3,确实都是一样的错误,把avro依赖全部删除后依然是这个错误 网络可以把包下下来,也确实有avro这个包,但是包里面的某些方法没有,导致编译报错 是不是flink一定要在linux下面编译才可以呢?还是确实avro包有别的什么问题? 在 2020/9/25 下午2:34,“刘建刚” 写入: 看着是mvn无法下载到某些包,你有使用过其他版本吗?如果都是相同的问题,那么应该是你本地环境或者网络环境的问题。 迟成 于2020年9月25日周五 下午1:45写道: > 环境: > > tag

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 zilong xiao
不太了解 YarnClusterDescripto~ xiao cai 于2020年9月25日周五 下午5:28写道: > Hi zilong: > > 这种方式我考虑过,个人认为平台层面如果有业务逻辑的侵入,会影响后续的升级。所以我们是在标注输出中正则匹配出jobId和applicationId。你了解YarnClusterDescripto吗?之前社区看到有人用这个提交的。 > > > 原始邮件 > 发件人: zilong xiao > 收件人: user-zh > 发送时间: 2020年9月25日(周五) 17:12 > 主题: Re:

Re:Re: 查询hbase sink结果表,有时查到数据,有时查不到

2020-09-25 文章 kandy.wang
hi Leonard: 实际在HBaseSinkFunction中打log测试下来发现,都是UPDATE_AFTER类型的RowData数据写Hbase,没有你说的那种retract消息呢。如果是retract 应该是 会先发一条UPDATE_BEFORE 消息,再发一条UPDATE_AFTER消息吧。实际测下来 都是UPDATE_AFTER,转成了hbase的Put操作,就好比每次都是upsert一样。 在 2020-09-25 10:03:34,"Leonard Xu" 写道: >Hi >>

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 Jeff Zhang
如果不是flink jar的job,可以用zeppelin sdk来提交flink job https://www.yuque.com/jeffzhangjianfeng/gldg8w/pz2xoh xiao cai 于2020年9月25日周五 下午4:23写道: > Hi all: > 大家好,我目前遇到一个flink 任务提交方面的困扰: > 想要在自己的项目中(springboot)提交flink >

回复: flink读取mongo数据本地部署成功,flink-cluster部署找不到类

2020-09-25 文章 GeGe
您好! 十分感谢您的回答!之前有进行尝试,但是还是没有解决这个问题。最后觉得应该是jar包不能读取到,所以把那个jar包单独放到了flink的lib下面,运行成功了。还没有找到一劳永逸解决的办法,不过十分感谢您的回复,谢谢~ Best wishes, Gege | | Ge Ge Software Engineer | | gg13871077...@163.com | 签名由网易邮箱大师定制 在2020年09月25日 16:01,zilong xiao 写道: 有可能是依赖冲突了,可以尝试用maven shade jar看看 GeGe 于2020年9月25日周五

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 xiao cai
Hi zilong: 这种方式我考虑过,个人认为平台层面如果有业务逻辑的侵入,会影响后续的升级。所以我们是在标注输出中正则匹配出jobId和applicationId。你了解YarnClusterDescripto吗?之前社区看到有人用这个提交的。 原始邮件 发件人: zilong xiao 收件人: user-zh 发送时间: 2020年9月25日(周五) 17:12 主题: Re: 怎么样在Flink中使用java代码提交job到yarn 你提交的任务是可以指定job name的呀,你的job

Re: pyflink如何提交作业到CDP集群中运行

2020-09-25 文章 Dian Fu
PyFlink支持提交到Standalone/Yarn/K8s集群运行。 Standalone和Yarn: https://ci.apache.org/projects/flink/flink-docs-release-1.11/ops/cli.html K8s:

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 zilong xiao
你提交的任务是可以指定job name的呀,你的job name和你的业务主键绑定就可以做到唯一了,然后根据这个关系查询即可,没记错-ynm 是指定job name的 xiao cai 于2020年9月25日周五 下午5:01写道: > hi zilong: > 通过process提交任务以后,通过rest > api,如何知道哪一个是我提交的呢?如果这时有多个请求过来同时都提交了任务,怎么知道rest返回的application应该与哪一次提交对应呢? > > > 原始邮件 > 发件人: zilong xiao > 收件人: user-zh > 发送时间:

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 xiao cai
hi zilong: 通过process提交任务以后,通过rest api,如何知道哪一个是我提交的呢?如果这时有多个请求过来同时都提交了任务,怎么知道rest返回的application应该与哪一次提交对应呢? 原始邮件 发件人: zilong xiao 收件人: user-zh 发送时间: 2020年9月25日(周五) 16:55 主题: Re: 怎么样在Flink中使用java代码提交job到yarn 我知道呀,你不是从输出里抠的嘛?你想要更优雅的方式可以用rest api啊,这些信息都是可以拿到的 xiao cai 于2020年9月25日周五 下午4:53写道:

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 zilong xiao
我知道呀,你不是从输出里抠的嘛?你想要更优雅的方式可以用rest api啊,这些信息都是可以拿到的 xiao cai 于2020年9月25日周五 下午4:53写道: > hi zilong: > 你说的这些信息我目前都能拿到,已经实现了。只是实现的方式很不优雅,而且提交的速度很慢。 > > > 原始邮件 > 发件人: zilong xiao > 收件人: user-zh > 发送时间: 2020年9月25日(周五) 16:48 > 主题: Re: 怎么样在Flink中使用java代码提交job到yarn > > >

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 xiao cai
hi zilong: 你说的这些信息我目前都能拿到,已经实现了。只是实现的方式很不优雅,而且提交的速度很慢。 原始邮件 发件人: zilong xiao 收件人: user-zh 发送时间: 2020年9月25日(周五) 16:48 主题: Re: 怎么样在Flink中使用java代码提交job到yarn JobId是说Flink的JobId还是yarn上面的application ID呢?containerID可以通过yarn rest api拿到呀 xiao cai 于2020年9月25日周五 下午4:43写道: > >

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 zilong xiao
JobId是说Flink的JobId还是yarn上面的application ID呢?containerID可以通过yarn rest api拿到呀 xiao cai 于2020年9月25日周五 下午4:43写道: > > 使用process没办法拿到当前提交任务的JobId和提交到Yarn上的对应的containerId,自能从标准输出中使用正则解析出来。我们目前使用的就是这种方式,已经实现了。但是这样很不优雅,而且提交的速度也会比较慢。 > > > 原始邮件 > 发件人: zilong xiao > 收件人: user-zh > 发送时间: 2020年9月25日(周五) 

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 xiao cai
使用process没办法拿到当前提交任务的JobId和提交到Yarn上的对应的containerId,自能从标准输出中使用正则解析出来。我们目前使用的就是这种方式,已经实现了。但是这样很不优雅,而且提交的速度也会比较慢。 原始邮件 发件人: zilong xiao 收件人: user-zh 发送时间: 2020年9月25日(周五) 16:32 主题: Re: 怎么样在Flink中使用java代码提交job到yarn Java程序用process调用脚本提交任务没啥问题吧,获取jobId的问题,我理解可以用yarn rest api & flink rest

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 xushanshan
可以捕获控制台打印出来的日志,flink相关日志的格式很固定,字符串截取就能获得 yarn application id 和 flink job id > 在 2020年9月25日,下午4:23,xiao cai 写道: > > Hi all: > 大家好,我目前遇到一个flink 任务提交方面的困扰: > 想要在自己的项目中(springboot)提交flink >

Re: 怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 zilong xiao
Java程序用process调用脚本提交任务没啥问题吧,获取jobId的问题,我理解可以用yarn rest api & flink rest api来完成,希望对你有帮助,祝好~ xiao cai 于2020年9月25日周五 下午4:23写道: > Hi all: > 大家好,我目前遇到一个flink 任务提交方面的困扰: > 想要在自己的项目中(springboot)提交flink >

怎么样在Flink中使用java代码提交job到yarn

2020-09-25 文章 xiao cai
Hi all: 大家好,我目前遇到一个flink 任务提交方面的困扰: 想要在自己的项目中(springboot)提交flink job到yarn上。目前采用的方式是process类在本地起进程,调用bin/flink来启动。这样不是很优雅,而且比较难获取到提交的jobId和containerId。看到网上有博客使用ClusterClient的方式来提交,但是遇到了classpath的问题,会缺失一些FLINK_HOME/lib下的jar包 所以我想问,应该如何在自己的应用中提交任务到yarn,既能拿到任务信息,又可以解决classpath为指定带来的困扰。 非常感谢 best,

Re: flink读取mongo数据本地部署成功,flink-cluster部署找不到类

2020-09-25 文章 zilong xiao
有可能是依赖冲突了,可以尝试用maven shade jar看看 GeGe 于2020年9月25日周五 下午3:54写道: > > > 您好! > > > 我用flink从mongo读取数据,在本地运行成功,但是部署到本地flink-cluster中却报错: > > > > java.lang.NoClassDefFoundError: com/mongodb/MongoClient > > at java.lang.Class.getDeclaredMethods0(Native Method) > > at

flink读取mongo数据本地部署成功,flink-cluster部署找不到类

2020-09-25 文章 GeGe
您好! 我用flink从mongo读取数据,在本地运行成功,但是部署到本地flink-cluster中却报错: java.lang.NoClassDefFoundError: com/mongodb/MongoClient at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at java.lang.Class.getDeclaredMethod(Class.java:2128) at

Re: Submit New Job -> Show Plan源码

2020-09-25 文章 zilong xiao
在工程里全局搜索关键字找到的代码貌似不是这个功能的,想知道这个接口调用的入口类类名是哪个呢? zilong xiao 于2020年9月25日周五 下午3:38写道: > [image: image.png] > Hi, 想问下社区有大佬知道Show Plan调用接口的源码在哪块吗? >

Flink SQL 1.11.1 executeSql/SqlUpdate时 SQL validation的一些问题

2020-09-25 文章 刘首维
Hi all, 今天在调试1.11 Flink 代码的时候,发现一个没太理解的现象 考虑以下code bsTableEnv.executeSql("create database a") bsTableEnv.executeSql( " CREATE TABLE a.b "(后略)) bsTableEnv.executeSql("select * from a.b") 然后发现了以下现象: [cid:5272e061-1d69-4e6a-b23b-fe09be09ade4]

Submit New Job -> Show Plan源码

2020-09-25 文章 zilong xiao
[image: image.png] Hi, 想问下社区有大佬知道Show Plan调用接口的源码在哪块吗?

Re: 关于flink sql的数据类型

2020-09-25 文章 Benchao Li
1.11的话, string类型是允许:"a":"abc" 和 "a": 123这两种形式的 bigint类型的话:"a": 123 和 "a": "123"也都是合法的 默认如果是字段不存在,会用null来表示; 如果字段解析错误,会抛异常,如果配置了ignoreParseError,则会忽略整条数据。 不知道你上面提到的(1)是怎么测出来的,方便把具体的DDL定义和示例数据贴一下吗? 赵一旦 于2020年9月25日周五 下午2:52写道: > 我基于1.11测试的。目前来看,json format的2个设置都设置好。然后event >

Re: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以

2020-09-25 文章 赵一旦
单分区情况下30MB,这和flink已经没关系了貌似。能否更高的消费,首先还得确认你是否由足够快的速度写入压测数据。 而kafka不论是写入还是消费都和分区数量有关系。所以压测flink的最高能力,首先你得压测kafka拿到一个你预设的最高压力,否则kafka分区1个,如果qps最高达到2w。那么你基于这个单分区kafka去压测flink,flink也不可能超过1w的qps去消费,懂吧? 压测flink,那么kafka部分你就得尽可能把分区设置很大,避免是kafka的瓶颈。 范超 于2020年9月25日周五 下午2:28写道: >

Re: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以

2020-09-25 文章 赵一旦
写错了哈。2w。 赵一旦 于2020年9月25日周五 下午2:57写道: > 单分区情况下30MB,这和flink已经没关系了貌似。能否更高的消费,首先还得确认你是否由足够快的速度写入压测数据。 > > 而kafka不论是写入还是消费都和分区数量有关系。所以压测flink的最高能力,首先你得压测kafka拿到一个你预设的最高压力,否则kafka分区1个,如果qps最高达到2w。那么你基于这个单分区kafka去压测flink,flink也不可能超过1w的qps去消费,懂吧? > > 压测flink,那么kafka部分你就得尽可能把分区设置很大,避免是kafka的瓶颈。 > > 范超

Re: [flink-1.11] 读kafka写hive,IDEA运行成功,打成jar包,提交到yarn运行报错

2020-09-25 文章 Rui Li
Hi, 可以检查一下是不是缺少了kafka connector的依赖,还有一种可能是SPI的service文件被覆盖了,这种情况的话可以用maven shade plugin的ServicesResourceTransformer来合并不同jar里的service文件 On Thu, Sep 24, 2020 at 7:17 PM nashcen <2415370...@qq.com> wrote: > > 代码在IDEA运行成功,打成jar包,提交到yarn运行报错。一开始以为是少包,后来把所有依赖包都打了进来,全局dependency.scope设为compile,依然报错。 >

Re: 关于flink sql的数据类型

2020-09-25 文章 赵一旦
我基于1.11测试的。目前来看,json format的2个设置都设置好。然后event time部分使用COALESCE将null情况设置为event_time 0。这么做是最好的情况啦。 Benchao Li 于2020年9月25日周五 下午2:08写道: > 你用的是哪个版本?1.11版本应该是改进过这块,不应该出现这个情况。 > > 赵一旦 于2020年9月25日周五 上午11:02写道: > > > 而且按照string无法接受"a":a,bigint在 "t":"as"情况下会为null。 > >

Re: 执行mvn构建错误

2020-09-25 文章 刘建刚
看着是mvn无法下载到某些包,你有使用过其他版本吗?如果都是相同的问题,那么应该是你本地环境或者网络环境的问题。 迟成 于2020年9月25日周五 下午1:45写道: > 环境: > > tag release-1.11.2 > > commit fe361357 > > Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f) > > Java version: 1.8.0_251, vendor: Oracle Corporation, runtime: >

答复: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以

2020-09-25 文章 范超
感谢benchao哥这么快就回复了。我这边再多观察测试一下。 再次感谢 -邮件原件- 发件人: Benchao Li [mailto:libenc...@apache.org] 发送时间: 2020年9月24日 星期四 16:06 收件人: user-zh 主题: Re: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以 我们一般提升作业吞吐能力的步骤就是看作业的反压情况, - 如果作业完全没有反压,说明此时处理能力大于上游数据产生速度 -

Re: [flink-1.11] 读 kafka 写 hive,partition-time 抽取值不准确

2020-09-25 文章 Rui Li
不好意思,我本地试了一下flink的FROM_UNIXTIME也是用的系统时区。你贴一下hive表的DDL和INSERT语句,我去试一下吧 On Fri, Sep 25, 2020 at 1:58 PM Rui Li wrote: > 这应该是时区差异导致的,flink的FROM_UNIXTIME用的是UTC时区,hive的FROM_UNIXTIME用的是系统时区。 > > On Thu, Sep 24, 2020 at 4:16 PM nashcen <2415370...@qq.com> wrote: > >> Kafka 表 定义如下: >> CREATE TABLE

Re: 关于flink sql的数据类型

2020-09-25 文章 Benchao Li
你用的是哪个版本?1.11版本应该是改进过这块,不应该出现这个情况。 赵一旦 于2020年9月25日周五 上午11:02写道: > 而且按照string无法接受"a":a,bigint在 "t":"as"情况下会为null。 > 这么来看,bigint反而比string还通用了,可以将非法数据通过null录入进来。 > string方式反而丢失部分信息了还。 > > 赵一旦 于2020年9月25日周五 上午10:57写道: > > > 今天做个测试,发现一些类型的特点,想确认下。 > > > > 目前来看,kafka数据的2个配置,(1)不存在字段设置null(2)解析错误忽略。