Thanks for help
-- --
??: "Jingsong Li"
Hi LakeShen,
感谢!就是这个!我这就去试一下
Thanks,
Xuhui Mao
LakeShen 于2020年6月30日周二 下午2:06写道:
> Hi shizk233,
>
> 可以看下这个 Jira , https://issues.apache.org/jira/browse/FLINK-16681。
>
> 这个就是长时间没有数据,导致 connection 断开问题。
>
> Best,
> LakeShen
>
> shizk233 于2020年6月30日周二 下午1:34写道:
>
> > Hi Zhong Tang,
> >
> >我查
Hi shizk233,
可以看下这个 Jira , https://issues.apache.org/jira/browse/FLINK-16681。
这个就是长时间没有数据,导致 connection 断开问题。
Best,
LakeShen
shizk233 于2020年6月30日周二 下午1:34写道:
> Hi Zhong Tang,
>
>我查看了该jira有关的重连pr,https://github.com/apache/flink/pull/8429
> ,但该pr主要通过重连机制来规避网络问题导致的连接失效,
> 但由于我的业务场景数据比较稀疏,遭遇
Hi Zhong Tang,
我查看了该jira有关的重连pr,https://github.com/apache/flink/pull/8429
,但该pr主要通过重连机制来规避网络问题导致的连接失效,
但由于我的业务场景数据比较稀疏,遭遇wait timeout连接失效是一个常见的情况,有最大次数限制的重连机制并不是很适合。
主要的需求其实是connection的持久保活。
Thanks,
Xuhui Mao
Zhonghan Tang <13122260...@163.com> 于2020年6月30日周二 下午12:05写道:
> 可以参考这个jira
> https
??
| |
17610775726
|
|
??17610775...@163.com
|
Signature is customized by Netease Mail Master
??2020??06??29?? 22:29?? ??
Hi,all:
Flinktransformations??org.apache.flink.streaming.api.t
可以参考这个jira
https://issues.apache.org/jira/browse/FLINK-12494
1. Throw execption and let flink runtime handle it;
2. Handle it in OutputFormat;
| |
Zhonghan Tang
|
|
13122260...@163.com
|
签名由网易邮箱大师定制
On 06/30/2020 11:53,shizk233 wrote:
Hi All,
最近使用flink处理数据写入mysql sink,但由于业务场景在晚上没有数据流入,会触发mysql
Hi All,
最近使用flink处理数据写入mysql sink,但由于业务场景在晚上没有数据流入,会触发mysql wait
timeout限制(默认的8小时)导致连接失效。
即使在mysql url中添加了autoReconnect=true参数,仍会产生相应的异常,具体信息见下。
版本信息:
flink 1.10.1
mysql server 5.6.47
mysql Connector/J 5.1.49
请问:
1.flink的jdbc connector是否可以采用连接池模型?如果只使用一个connection,是否可以添加某种心跳机制以保持active?
2.连接失效后是否
??
??hive
table??dag??hive??hive3??subtask??
https://s1.ax1x.com/2020/06/30/N4qxNq.png
subtaskrunning19???
作业最后的状态是成功结束么?Hive table source是一个bounded
stream,所以hive表的数据读完这个stream就结束了,不知道这个对作业是不是有影响。
On Tue, Jun 30, 2020 at 10:39 AM MuChen <9329...@qq.com> wrote:
> 看了配置文件,是流作业啊
>
>
> $ grep -v \# sql-client-defaults.yaml |grep -v ^$ catalogs:- name:
> myhive type: hive hive-conf-dir: /home/fs
$ grep -v \# sql-client-defaults.yaml |grep -v ^$ catalogs:- name: myhive
type: hive hive-conf-dir: /home/fsql/hive/conf default-database:
default execution: planner: blink type: streaming time-characteristic:
event-time periodic-watermarks-inte
谢谢各位 ,我也解锁新知识了。社区好热情啊,(●'◡'●) @Jingsong Li
seeksst 于2020年6月30日周二 上午10:20写道:
> @Jingsong Li 尝试了一下,cast确实可行,解锁新知识,thanks.
>
>
> 原始邮件
> 发件人:lakeshenshenleifight...@gmail.com
> 收件人:user-zhuser...@flink.apache.org
> 发送时间:2020年6月30日(周二) 10:07
> 主题:Re: flink sql能否显示地创造一列null行
>
>
> 或者补齐一个非 Null ,但是又不影
Hi,
1.10后的Flink是支持单task的failover的,(需要batch shuffle和region调度)
所以容错粒度是基于单task。
批作业的Failover模型和流是不一样的。它就是基于单task,如果想要达到较好的容错,可以开更大的并行度,这样单task执行的时间会越短,failover效率也就会越高。
Best,
Jingsong
On Tue, Jun 30, 2020 at 9:41 AM 张波 <173603...@qq.com> wrote:
> hi,zhisheng 使用stream是否可以使任务因为单个tm失败的情况下,只重启这个tm,而非重
Hi, Tony,
看了一下,你运行在 k8s 上面的任务,job id 是,那如果有多个任务,jobid
如果都是
的话,如果都是在相同的ZK根目录,不同 k8s 任务 在 zk 上面的信息可能会有影响。目前我们这边是每个k8s 任务,在不同的 zk 路径下面。
第二点的话,你的任务是否能够正常运行起来?还是说任务正常运行起来,只是 checkpoint 有问题。
目前 k8s 上,JobManager 的高可用我们也借助 ZK,由于 JobManager
@Jingsong Li 尝试了一下,cast确实可行,解锁新知识,thanks.
原始邮件
发件人:lakeshenshenleifight...@gmail.com
收件人:user-zhuser...@flink.apache.org
发送时间:2020年6月30日(周二) 10:07
主题:Re: flink sql能否显示地创造一列null行
或者补齐一个非 Null ,但是又不影响业务逻辑的数值 Jingsong Li jingsongl...@gmail.com 于2020年6月30日周二
上午9:58写道: Hi, 我记得NULL的literal是可以的,不过
或者补齐一个非 Null ,但是又不影响业务逻辑的数值
Jingsong Li 于2020年6月30日周二 上午9:58写道:
> Hi,
>
> 我记得NULL的literal是可以的,不过需要cast成确定的类型,比如 select CAST(null AS VARCHAR);
> 你试试。
>
> Best,
> Jingsong
>
> On Tue, Jun 30, 2020 at 9:40 AM seeksst wrote:
>
> > Hi,
> >
> >
> > 按照你的意思是想将两个不同的数据集进行union,但是由于字段不同需要补充NULL。
> > 显
哈哈,学习了一波
Jingsong Li 于2020年6月30日周二 上午9:59写道:
> > 用Row 和 Tuple 性能上会有差别吗?
>
> 理论上有细微的差别,
> 但是,基本上性能瓶颈不会在这里。。所以你应该感受不到
>
> Best,
> Jingsong
>
> On Tue, Jun 30, 2020 at 8:51 AM zhisheng wrote:
>
> > 可以测试一下
> >
> > Tianwang Li 于2020年6月29日周一 下午8:13写道:
> >
> > > >
> > > > 用 Row 啊,支持 Int.MAX 个元素,还能支持
> 用Row 和 Tuple 性能上会有差别吗?
理论上有细微的差别,
但是,基本上性能瓶颈不会在这里。。所以你应该感受不到
Best,
Jingsong
On Tue, Jun 30, 2020 at 8:51 AM zhisheng wrote:
> 可以测试一下
>
> Tianwang Li 于2020年6月29日周一 下午8:13写道:
>
> > >
> > > 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
> > >
> > 用Row 和 Tuple 性能上会有差别吗?
> >
> > Jark Wu 于2020年6月19日周五
Hi,
我记得NULL的literal是可以的,不过需要cast成确定的类型,比如 select CAST(null AS VARCHAR);
你试试。
Best,
Jingsong
On Tue, Jun 30, 2020 at 9:40 AM seeksst wrote:
> Hi,
>
>
> 按照你的意思是想将两个不同的数据集进行union,但是由于字段不同需要补充NULL。
> 显示的NULL是不行的,你可以使用更复杂的方式进行对齐:
> case when 1 = 2 then 1 end as 字段
> 1永远不可能等于2,又没有else分支,所以结果是会
忝忝向仧,你好。
目前Flink文档层面没有类似的映射表归档。
但是在API层面可以观察到返回信息。
Best,
Roc Marshal
在 2020-06-29 22:29:21,"忝忝向仧" <153488...@qq.com> 写道:
>Hi,all:
>
>
>请教下,Flink的应用程序首先都会转为逻辑映射也就是transformations,我看org.apache.flink.streaming.api.transformations包下面目前有17种Transformation类(SourceTransformation,SplitTransformation,Tw
hi??zhisheng
stream??tmtm???
-- --
??: "zhisheng"
Hi,
按照你的意思是想将两个不同的数据集进行union,但是由于字段不同需要补充NULL。
显示的NULL是不行的,你可以使用更复杂的方式进行对齐:
case when 1 = 2 then 1 end as 字段
1永远不可能等于2,又没有else分支,所以结果是会返回null.
原始邮件
发件人:naisili yuanyuanlong1...@gmail.com
收件人:user-zhuser...@flink.apache.org
发送时间:2020年6月30日(周二) 09:31
主题:flink sql能否显示地创造一列null行
由于union的操作,
>
> 偶尔会出现checkpint需要超过30分钟的(出现的频率不高,1~2天1次)
找到原因了, 任务处理延迟比较大,kafka数据过期清理了,导致从last消费(watermark一下子增长了好多个小时),
然后,这个时候需要输出几个小时内的所有窗口(平时一次只输出一个窗口,这时一次要输出30个窗口消耗比较长时间)。
因为是稳定测试任务,没有关注kafka 延迟 导致数据过期到问题。
感谢,zhisheng、LakeShen、Yichao Yang。
Yichao Yang <1048262...@qq.com> 于2020年6月29日周一 下午7:58写道:
> Hi
>
由于union的操作,结果集的列数必须一致,我能否加入这一列,语法如下:
UNION
SELECT NULL
,
aaa,
bbb,
NULL
FROM ()
是不是作业是一个批作业呀?
Yichao Yang <1048262...@qq.com> 于2020年6月29日周一 下午6:58写道:
> Hi
>
>
> 看你的日志你的数据源是hive table?可以看下是否是批作业模式而不是流作业模式。
>
>
> Best,
> Yichao Yang
>
>
>
>
> -- 原始邮件 --
> 发件人: "MuChen"<9329...@qq.com>;
> 发送时间: 2020年6月29日(星期一) 下午4:53
> 收件人: "user-zh"
> 主题: flinks
hi,阿华田
你可以检查一下作业重启的时候,对应 Kafka 集群的 broker
机器上面的监控信息,看看对应时间是否有负载变高的情况,从而验证一下是否因为机器负载变高导致的读取超时?
Best!
zhisheng
Yichao Yang <1048262...@qq.com> 于2020年6月29日周一 下午7:50写道:
> Hi
>
>
> 看报错是说 dercd_seeme-3 partition 读取异常,可以检查下上游kafka的该partition是否有异常。
>
>
> Best,
> Yichao Yang
>
>
>
>
> --
可以测试一下
Tianwang Li 于2020年6月29日周一 下午8:13写道:
> >
> > 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
> >
> 用Row 和 Tuple 性能上会有差别吗?
>
> Jark Wu 于2020年6月19日周五 下午3:47写道:
>
> > 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
> >
> >
> > On Fri, 19 Jun 2020 at 15:42, Weixubin <18925434...@163.com> wrote:
> >
> > > 感谢你
hi,Tony
你可以把 Checkpoint 间隔时间稍微设置大一些,看起来像是作业启动的时候 Task 还没 Running,就开始执行 Checkpoint
了,而 Checkpoint 是要求所有的 Task 是处于 Running 状态的,所以就会丢弃掉那次
Checkpoint,BT,就算有这个异常应该问题也不大,只要后面你的作业全启动成功了的话,则 Checkpoint 还是会成功的。
Best!
zhisheng
Tony 于2020年6月29日周一 下午8:16写道:
>
> 你好,我的flink运行环境是在k8s中,我先是打开了checkpoint功能,那样是
hi,张波,
使用 Checkpoint 的方式在遇到错误的时候会 failover,恢复的时候是从上一次完整 Checkpoint
的状态开始恢复,不会让你重新从最开始的数据开始读取计算。
Best !
zhisheng
张波 <173603...@qq.com> 于2020年6月29日周一 下午10:06写道:
> 场景如下:
> flink批处理中,如果出现错误,包括网络及其他原因,导致任务失败,此时会将整个任务重新跑一遍,就算只是其中一个tm出现了问题也是如此。
> 我有一个sink
> es的操作,由于数据量大,将其分拆成一个独立的batch任务,但是只要中间有导致tm挂
应该看名字就可以看出来对应关系的
忝忝向仧 <153488...@qq.com> 于2020年6月29日周一 下午10:29写道:
> Hi,all:
>
>
>
> 请教下,Flink的应用程序首先都会转为逻辑映射也就是transformations,我看org.apache.flink.streaming.api.transformations包下面目前有17种Transformation类(SourceTransformation,SplitTransformation,TwoInputTransformation等),有没有一个映射关系列表,也就是说应用程序里面哪些算子或者操作(
Hi,all:
Flinktransformations??org.apache.flink.streaming.api.transformations17??Transformation??(SourceTransformation,SplitTransformation,TwoInputTransformation??)??(map,fla
?? 17610775726??
"org.apache.flink" %% "flink-table-api-scala-bridge" % "1.10.1",
"org.apache.flink" %% "flink-table-planner-blink" % "1.10.1" % "provided",
"org.apache.flink" % "flink-table" % "1.10.1" % "provided",
"flink-table"??
使用row number设置成blink的planner就行了 依赖也只用加blink的
| |
17610775726
|
|
邮箱:17610775...@163.com
|
Signature is customized by Netease Mail Master
On 06/29/2020 17:19, xuhaiLong wrote:
hello,请教下
"org.apache.flink" %% "flink-table-api-scala-bridge" % "1.10.1",
"org.apache.flink" %% "flink-table-pl
场景如下:
flink批处理中,如果出现错误,包括网络及其他原因,导致任务失败,此时会将整个任务重新跑一遍,就算只是其中一个tm出现了问题也是如此。
我有一个sink
es的操作,由于数据量大,将其分拆成一个独立的batch任务,但是只要中间有导致tm挂掉的错误(非任务本身逻辑问题),任务就会从头执行,感觉非常不友好。
问题:是否可以用streamsink的方式,使用checkpoint来解决批处理整个重启的问题?或者在10甚至之后的版本有新的解决方式?
你好,我的flink运行环境是在k8s中,我先是打开了checkpoint功能,那样是可以用的,task失败了数据还可以恢复,但job失败了就不行了,所以我又配置flink的高可用,在job的yaml文件里设置了动态属性("-Dhigh-availability=zookeeper"),这样job启动时就出现那种警告,功能也不好用了。但如果配置在flink-config文件里的话就可以,不知道为什么?而我就是想用那个动态属性的方式,谢谢大神指点。
--
发自我的网易邮箱手机智能版
- Original Message -
From: tison
To: us
>
> 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
>
用Row 和 Tuple 性能上会有差别吗?
Jark Wu 于2020年6月19日周五 下午3:47写道:
> 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
>
>
> On Fri, 19 Jun 2020 at 15:42, Weixubin <18925434...@163.com> wrote:
>
> > 感谢你的回答,请问可否举一个参照例子?
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
>
Hi
checkpoint??cpugc??
Best,
Yichao Yang
-- --
??: "Tianwang L
Hi
?? dercd_seeme-3 partition
kafkapartition
Best,
Yichao Yang
-- --
??: "??"
Hi
??hive table
Best,
Yichao Yang
-- --
??: "MuChen"<9329...@qq.com>;
: 2020??6??29??(??) 4:53
??: "user-zh"https://s1.ax1x.com/2020/06/29/Nf2dIA.png
???
如果算子都在一个group里面的话确实在webui上不好看出背压问题,可以将operator chain 拆开。
• StreamExecutionEnvironment.disableOperatorChaining():关闭整个Job的OperatorChain
•
someStream.filter(...).map(...).startNewChain().map():startNewChain()是指从当前Operator[map]开始一个新的chain,即:两个map会chaining在一起而filter不会(因为startNewChain的存在使得第一次map与filter
hello,请教下
"org.apache.flink" %% "flink-table-api-scala-bridge" % "1.10.1",
"org.apache.flink" %% "flink-table-planner-blink" % "1.10.1" % "provided",
"org.apache.flink" % "flink-table" % "1.10.1" % "provided",
我在项目中添加了这三个依赖,在idea 中 运行的时候出现异常
`Could not instantiate the executor. Makesure
hi,
yarn-session??bin/yarn-session.sh -jm 1g -tm 4g -s 4 -qu root.flink -nm
fsql-cli 2>&1 &
sql-clientsql??
kafkahive??joinmysql
succeeded??
你好,我试了一下,纯DataStream的方式是可以使用的,具体使用参考`flink-formats\flink-parquet\src\test\java\org\apache\flink\formats\parquet\avro\ParquetStreamingFileSinkITCase`
在Table转DataStream的方式中,我是先将Table转换为DataStream[Row],然后再进行转换生成DataStream[GenericRecord]
dataStream.map(x => {
...val fields = new util.ArrayList[Schem
42 matches
Mail list logo