Hi Zhong Tang,
我查看了该jira有关的重连pr,https://github.com/apache/flink/pull/8429
,但该pr主要通过重连机制来规避网络问题导致的连接失效,
但由于我的业务场景数据比较稀疏,遭遇wait timeout连接失效是一个常见的情况,有最大次数限制的重连机制并不是很适合。
主要的需求其实是connection的持久保活。
Thanks,
Xuhui Mao
Zhonghan Tang <13122260...@163.com> 于2020年6月30日周二 下午12:05写道:
> 可以参考这个jira
>
??
| |
17610775726
|
|
??17610775...@163.com
|
Signature is customized by Netease Mail Master
??2020??06??29?? 22:29?? ??
Hi,all:
可以参考这个jira
https://issues.apache.org/jira/browse/FLINK-12494
1. Throw execption and let flink runtime handle it;
2. Handle it in OutputFormat;
| |
Zhonghan Tang
|
|
13122260...@163.com
|
签名由网易邮箱大师定制
On 06/30/2020 11:53,shizk233 wrote:
Hi All,
最近使用flink处理数据写入mysql sink,但由于业务场景在晚上没有数据流入,会触发mysql
Hi All,
最近使用flink处理数据写入mysql sink,但由于业务场景在晚上没有数据流入,会触发mysql wait
timeout限制(默认的8小时)导致连接失效。
即使在mysql url中添加了autoReconnect=true参数,仍会产生相应的异常,具体信息见下。
版本信息:
flink 1.10.1
mysql server 5.6.47
mysql Connector/J 5.1.49
请问:
1.flink的jdbc connector是否可以采用连接池模型?如果只使用一个connection,是否可以添加某种心跳机制以保持active?
??
??hive
table??dag??hive??hive3??subtask??
https://s1.ax1x.com/2020/06/30/N4qxNq.png
作业最后的状态是成功结束么?Hive table source是一个bounded
stream,所以hive表的数据读完这个stream就结束了,不知道这个对作业是不是有影响。
On Tue, Jun 30, 2020 at 10:39 AM MuChen <9329...@qq.com> wrote:
> 看了配置文件,是流作业啊
>
>
> $ grep -v \# sql-client-defaults.yaml |grep -v ^$ catalogs:- name:
> myhive type: hive hive-conf-dir:
$ grep -v \# sql-client-defaults.yaml |grep -v ^$ catalogs:- name: myhive
type: hive hive-conf-dir: /home/fsql/hive/conf default-database:
default execution: planner: blink type: streaming time-characteristic:
event-time
谢谢各位 ,我也解锁新知识了。社区好热情啊,(●'◡'●) @Jingsong Li
seeksst 于2020年6月30日周二 上午10:20写道:
> @Jingsong Li 尝试了一下,cast确实可行,解锁新知识,thanks.
>
>
> 原始邮件
> 发件人:lakeshenshenleifight...@gmail.com
> 收件人:user-zhuser...@flink.apache.org
> 发送时间:2020年6月30日(周二) 10:07
> 主题:Re: flink sql能否显示地创造一列null行
>
>
> 或者补齐一个非 Null
Hi,
1.10后的Flink是支持单task的failover的,(需要batch shuffle和region调度)
所以容错粒度是基于单task。
批作业的Failover模型和流是不一样的。它就是基于单task,如果想要达到较好的容错,可以开更大的并行度,这样单task执行的时间会越短,failover效率也就会越高。
Best,
Jingsong
On Tue, Jun 30, 2020 at 9:41 AM 张波 <173603...@qq.com> wrote:
> hi,zhisheng
Hi, Tony,
看了一下,你运行在 k8s 上面的任务,job id 是,那如果有多个任务,jobid
如果都是
的话,如果都是在相同的ZK根目录,不同 k8s 任务 在 zk 上面的信息可能会有影响。目前我们这边是每个k8s 任务,在不同的 zk 路径下面。
第二点的话,你的任务是否能够正常运行起来?还是说任务正常运行起来,只是 checkpoint 有问题。
目前 k8s 上,JobManager 的高可用我们也借助 ZK,由于
@Jingsong Li 尝试了一下,cast确实可行,解锁新知识,thanks.
原始邮件
发件人:lakeshenshenleifight...@gmail.com
收件人:user-zhuser...@flink.apache.org
发送时间:2020年6月30日(周二) 10:07
主题:Re: flink sql能否显示地创造一列null行
或者补齐一个非 Null ,但是又不影响业务逻辑的数值 Jingsong Li jingsongl...@gmail.com 于2020年6月30日周二
上午9:58写道: Hi,
或者补齐一个非 Null ,但是又不影响业务逻辑的数值
Jingsong Li 于2020年6月30日周二 上午9:58写道:
> Hi,
>
> 我记得NULL的literal是可以的,不过需要cast成确定的类型,比如 select CAST(null AS VARCHAR);
> 你试试。
>
> Best,
> Jingsong
>
> On Tue, Jun 30, 2020 at 9:40 AM seeksst wrote:
>
> > Hi,
> >
> >
> > 按照你的意思是想将两个不同的数据集进行union,但是由于字段不同需要补充NULL。
> >
哈哈,学习了一波
Jingsong Li 于2020年6月30日周二 上午9:59写道:
> > 用Row 和 Tuple 性能上会有差别吗?
>
> 理论上有细微的差别,
> 但是,基本上性能瓶颈不会在这里。。所以你应该感受不到
>
> Best,
> Jingsong
>
> On Tue, Jun 30, 2020 at 8:51 AM zhisheng wrote:
>
> > 可以测试一下
> >
> > Tianwang Li 于2020年6月29日周一 下午8:13写道:
> >
> > > >
> > > > 用 Row 啊,支持 Int.MAX 个元素,还能支持
> 用Row 和 Tuple 性能上会有差别吗?
理论上有细微的差别,
但是,基本上性能瓶颈不会在这里。。所以你应该感受不到
Best,
Jingsong
On Tue, Jun 30, 2020 at 8:51 AM zhisheng wrote:
> 可以测试一下
>
> Tianwang Li 于2020年6月29日周一 下午8:13写道:
>
> > >
> > > 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
> > >
> > 用Row 和 Tuple 性能上会有差别吗?
> >
> > Jark Wu 于2020年6月19日周五
Hi,
我记得NULL的literal是可以的,不过需要cast成确定的类型,比如 select CAST(null AS VARCHAR);
你试试。
Best,
Jingsong
On Tue, Jun 30, 2020 at 9:40 AM seeksst wrote:
> Hi,
>
>
> 按照你的意思是想将两个不同的数据集进行union,但是由于字段不同需要补充NULL。
> 显示的NULL是不行的,你可以使用更复杂的方式进行对齐:
> case when 1 = 2 then 1 end as 字段
>
忝忝向仧,你好。
目前Flink文档层面没有类似的映射表归档。
但是在API层面可以观察到返回信息。
Best,
Roc Marshal
在 2020-06-29 22:29:21,"忝忝向仧" <153488...@qq.com> 写道:
>Hi,all:
>
>
hi??zhisheng
stream??tmtm???
----
??:zhisheng
Hi,
按照你的意思是想将两个不同的数据集进行union,但是由于字段不同需要补充NULL。
显示的NULL是不行的,你可以使用更复杂的方式进行对齐:
case when 1 = 2 then 1 end as 字段
1永远不可能等于2,又没有else分支,所以结果是会返回null.
原始邮件
发件人:naisili yuanyuanlong1...@gmail.com
收件人:user-zhuser...@flink.apache.org
发送时间:2020年6月30日(周二) 09:31
主题:flink sql能否显示地创造一列null行
>
> 偶尔会出现checkpint需要超过30分钟的(出现的频率不高,1~2天1次)
找到原因了, 任务处理延迟比较大,kafka数据过期清理了,导致从last消费(watermark一下子增长了好多个小时),
然后,这个时候需要输出几个小时内的所有窗口(平时一次只输出一个窗口,这时一次要输出30个窗口消耗比较长时间)。
因为是稳定测试任务,没有关注kafka 延迟 导致数据过期到问题。
感谢,zhisheng、LakeShen、Yichao Yang。
Yichao Yang <1048262...@qq.com> 于2020年6月29日周一 下午7:58写道:
> Hi
由于union的操作,结果集的列数必须一致,我能否加入这一列,语法如下:
UNION
SELECT NULL
,
aaa,
bbb,
NULL
FROM ()
是不是作业是一个批作业呀?
Yichao Yang <1048262...@qq.com> 于2020年6月29日周一 下午6:58写道:
> Hi
>
>
> 看你的日志你的数据源是hive table?可以看下是否是批作业模式而不是流作业模式。
>
>
> Best,
> Yichao Yang
>
>
>
>
> --原始邮件--
> 发件人:"MuChen"<9329...@qq.com;
> 发送时间:2020年6月29日(星期一) 下午4:53
> 收件人:"user-zh"
>
hi,阿华田
你可以检查一下作业重启的时候,对应 Kafka 集群的 broker
机器上面的监控信息,看看对应时间是否有负载变高的情况,从而验证一下是否因为机器负载变高导致的读取超时?
Best!
zhisheng
Yichao Yang <1048262...@qq.com> 于2020年6月29日周一 下午7:50写道:
> Hi
>
>
> 看报错是说 dercd_seeme-3 partition 读取异常,可以检查下上游kafka的该partition是否有异常。
>
>
> Best,
> Yichao Yang
>
>
>
>
>
可以测试一下
Tianwang Li 于2020年6月29日周一 下午8:13写道:
> >
> > 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
> >
> 用Row 和 Tuple 性能上会有差别吗?
>
> Jark Wu 于2020年6月19日周五 下午3:47写道:
>
> > 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
> >
> >
> > On Fri, 19 Jun 2020 at 15:42, Weixubin <18925434...@163.com> wrote:
> >
> > >
hi,Tony
你可以把 Checkpoint 间隔时间稍微设置大一些,看起来像是作业启动的时候 Task 还没 Running,就开始执行 Checkpoint
了,而 Checkpoint 是要求所有的 Task 是处于 Running 状态的,所以就会丢弃掉那次
Checkpoint,BT,就算有这个异常应该问题也不大,只要后面你的作业全启动成功了的话,则 Checkpoint 还是会成功的。
Best!
zhisheng
Tony 于2020年6月29日周一 下午8:16写道:
>
>
hi,张波,
使用 Checkpoint 的方式在遇到错误的时候会 failover,恢复的时候是从上一次完整 Checkpoint
的状态开始恢复,不会让你重新从最开始的数据开始读取计算。
Best !
zhisheng
张波 <173603...@qq.com> 于2020年6月29日周一 下午10:06写道:
> 场景如下:
> flink批处理中,如果出现错误,包括网络及其他原因,导致任务失败,此时会将整个任务重新跑一遍,就算只是其中一个tm出现了问题也是如此。
> 我有一个sink
>
应该看名字就可以看出来对应关系的
忝忝向仧 <153488...@qq.com> 于2020年6月29日周一 下午10:29写道:
> Hi,all:
>
>
>
>
Hi,all:
??17610775726??
"org.apache.flink" %% "flink-table-api-scala-bridge" % "1.10.1",
"org.apache.flink" %% "flink-table-planner-blink" % "1.10.1" % "provided",
"org.apache.flink" % "flink-table" % "1.10.1" % "provided",
使用row number设置成blink的planner就行了 依赖也只用加blink的
| |
17610775726
|
|
邮箱:17610775...@163.com
|
Signature is customized by Netease Mail Master
On 06/29/2020 17:19, xuhaiLong wrote:
hello,请教下
"org.apache.flink" %% "flink-table-api-scala-bridge" % "1.10.1",
"org.apache.flink" %%
场景如下:
flink批处理中,如果出现错误,包括网络及其他原因,导致任务失败,此时会将整个任务重新跑一遍,就算只是其中一个tm出现了问题也是如此。
我有一个sink
es的操作,由于数据量大,将其分拆成一个独立的batch任务,但是只要中间有导致tm挂掉的错误(非任务本身逻辑问题),任务就会从头执行,感觉非常不友好。
问题:是否可以用streamsink的方式,使用checkpoint来解决批处理整个重启的问题?或者在10甚至之后的版本有新的解决方式?
你好,我的flink运行环境是在k8s中,我先是打开了checkpoint功能,那样是可以用的,task失败了数据还可以恢复,但job失败了就不行了,所以我又配置flink的高可用,在job的yaml文件里设置了动态属性("-Dhigh-availability=zookeeper"),这样job启动时就出现那种警告,功能也不好用了。但如果配置在flink-config文件里的话就可以,不知道为什么?而我就是想用那个动态属性的方式,谢谢大神指点。
--
发自我的网易邮箱手机智能版
- Original Message -
From: tison
To:
>
> 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
>
用Row 和 Tuple 性能上会有差别吗?
Jark Wu 于2020年6月19日周五 下午3:47写道:
> 用 Row 啊,支持 Int.MAX 个元素,还能支持 null 值,不香么?
>
>
> On Fri, 19 Jun 2020 at 15:42, Weixubin <18925434...@163.com> wrote:
>
> > 感谢你的回答,请问可否举一个参照例子?
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
> >
Hi
checkpoint??cpugc??
Best,
Yichao Yang
----
??:"Tianwang Li"
Hi
?? dercd_seeme-3 partition
kafkapartition
Best,
Yichao Yang
----
??:"??"
Hi
??hive table
Best,
Yichao Yang
----
??:"MuChen"<9329...@qq.com;
:2020??6??29??(??) 4:53
??:"user-zh"https://s1.ax1x.com/2020/06/29/Nf2dIA.png
如果算子都在一个group里面的话确实在webui上不好看出背压问题,可以将operator chain 拆开。
• StreamExecutionEnvironment.disableOperatorChaining():关闭整个Job的OperatorChain
•
hello,请教下
"org.apache.flink" %% "flink-table-api-scala-bridge" % "1.10.1",
"org.apache.flink" %% "flink-table-planner-blink" % "1.10.1" % "provided",
"org.apache.flink" % "flink-table" % "1.10.1" % "provided",
我在项目中添加了这三个依赖,在idea 中 运行的时候出现异常
`Could not instantiate the executor.
hi,
yarn-session??bin/yarn-session.sh -jm 1g -tm 4g -s 4 -qu root.flink -nm
fsql-cli 21
sql-clientsql??
kafkahive??joinmysql
你好,我试了一下,纯DataStream的方式是可以使用的,具体使用参考`flink-formats\flink-parquet\src\test\java\org\apache\flink\formats\parquet\avro\ParquetStreamingFileSinkITCase`
在Table转DataStream的方式中,我是先将Table转换为DataStream[Row],然后再进行转换生成DataStream[GenericRecord]
dataStream.map(x => {
...val fields = new
39 matches
Mail list logo