Re: Flink checkpoint 速度很慢 问题排查

2021-06-04 Thread Jacob
@nobleyd 谢谢回复

你任务A中的redis和hbase是异步还是同步访问,--- 同步

你估计用的是对齐检查点是吧? ---是的


同步访问,是因为我们要及时生成新数据,换做异步就无法即时拿到最新的结果数据了

检查点我刚调整为非对齐方式了,从做完的十个checkpoint来看,state大小确实增加了,但速度尚未变快


消息量确实比较大,处理逻辑也较为复杂,处理逻辑算子的并行度我给了100,source并行度等于topic分区数



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

flink 1.11 application模式 使用 k8s时如何指定拉起的taskmanager数目

2021-06-04 Thread Jun Zou
Hi,all:
  我使用flink 1.11.2 的application模式在k8s上提交作业,作业申请的tm数目和期望的不一致。

作业调用DataStream接口注册kafka source和HDFS
sink,中间操作使用sql,sql逻辑是map-only,kafka的分区数目为4
首先,我在yarn上提交同样类型的作业,指定如下参数:

> taskmanager.numberOfTaskSlots:1
>
 parallelism.default:4

产生了4个taskmanager

而在k8s上配置了如下参数:

> taskmanager.numberOfTaskSlots:1
>
parallelism.default:4

kubernetes.taskmanager.cpu:1

却只申请了一个taskmanager。

另外,我使用TopSpeedWindowing这个example,在k8s上提交jar作业能拉起正确的taskmanager数目


Re: Flink checkpoint 速度很慢 问题排查

2021-06-04 Thread yidan zhao
我懂你意思,每个输入数据,经过redis、hbase等访问,以及相关调整(比如字段设置等),然后这个记录需要继续作为此算子的输出是吧。

我表达的是指你需要用异步访问redis、hbase方式,这个配合flink的异步算子去实现。所以你说的那个需求基于异步的是可以满足的。

Jacob <17691150...@163.com> 于2021年6月4日周五 下午3:21写道:
>
> @nobleyd 谢谢回复
>
> 你任务A中的redis和hbase是异步还是同步访问,--- 同步
>
> 你估计用的是对齐检查点是吧? ---是的
>
>
> 同步访问,是因为我们要及时生成新数据,换做异步就无法即时拿到最新的结果数据了
>
> 检查点我刚调整为非对齐方式了,从做完的十个checkpoint来看,state大小确实增加了,但速度尚未变快
>
>
> 消息量确实比较大,处理逻辑也较为复杂,处理逻辑算子的并行度我给了100,source并行度等于topic分区数
>
>
>
> -
> Thanks!
> Jacob
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/


????

2021-06-04 Thread ????????


Re: flink自定义connector相关报错

2021-06-04 Thread Zorro
看日志中提示required字段没有给全:
Reason: Required context properties mismatch.

The following properties are requested:
connector.type=redis
host=localhost
port=6379
schema.0.data-type=VARCHAR(2147483647)
schema.0.name=username
schema.1.data-type=VARCHAR(2147483647)
schema.1.name=c

你的requiredOptions()函数中是不是添加了schema*那几个参数



--
Sent from: http://apache-flink.147419.n8.nabble.com/


Re: Flink checkpoint 速度很慢 问题排查

2021-06-04 Thread Jacob
嗯嗯 你的描述是对的,job的执行过程大致就是如此


我明白你意思了

谢谢你提供的思路,我需要学习一下这个异步算子,之前从未接触过,不太清楚这具体是一个怎样的流程,请问你那边有相关的demo吗,或者该去具体去看哪部分的内容?





-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/

Re: flink1.12版本,yarn-application模式Flink web ui看不到日志

2021-06-04 Thread r pp
嗨~
 我这边是  per-job on yarn 的mode

 我查看的 yarn 的container 的日志信息,一般在程序初始化的时候,就会生产日志名,日志路径,变成环境env,
 然后 形成config ,再启动 cluster。

而日志路径 是yarn 的配置模式取好的,之后 flink 的获取这个信息,用于web 展示。

所以,你可能需要定位 你的日志文件路径 是否有改变,我做test,改变日志名,flink-web 还是可以正常显示 ,但是改变路径,flink-web
就无法显示了

但是具体的差异可能无法细化了,所提供的信息太少
env 环境信息
2021-06-04 17:38:15,417 INFO org.apache.flink.runtime.entrypoint.
ClusterEntrypoint [] - -Dlog
.file=/yarn/container-logs/application_1622784975053_0013/container_1622784975053_0013_01_01/jobmanager.log
cluster 启动信息
2021-06-04 16:47:01,429 INFO org.apache.flink.runtime.entrypoint.
ClusterEntrypoint [] - YARN daemon is running as: hdfs Yarn client user
obtainer: hdfs

zilong xiao  于2021年6月3日周四 下午2:17写道:

> 1.10默认用的log4j1,1.12用log4j2
>
> smq <374060...@qq.com> 于2021年6月2日周三 下午3:26写道:
>
> >
> >
> 你的意思是在log4j.properties中的配置吗,我门在这个里边配置了生成日志文件的格式,是在安装节点里加的,不过这个应该不是在webui里显示的。奇怪的一点是我们组有别的程序是正常的,但是一部分在webUI不显示日志。我们目前是从1.10升级到1.12,这种情况在1.12出现的
> >
> >
> >
> >
> >
> > -- 原始邮件 --
> > 发件人: r pp  > 发送时间: 2021年6月2日 15:08
> > 收件人: user-zh  > 主题: 回复:flink1.12版本,yarn-application模式Flink web ui看不到日志
> >
> >
> >
> > 嗨~  你们有没有改日志文件的名字
> >
> > smq <374060...@qq.com> 于2021年6月2日周三 下午12:24写道:
> >
> > > 你这个解决了吗,我也遇到了同样的问题
> > >
> > >
> > >
> > >
> > >
> > > -- 原始邮件 --
> > > 发件人: todd  > > 发送时间: 2021年4月14日 19:11
> > > 收件人: user-zh  > > 主题: 回复:flink1.12版本,yarn-application模式Flink web ui看不到日志
> > >
> > >
> > >
> > >  yarn上只有.out,.error的日志信息,但是从flink web ui的log框,无法显示日志内容。
> > >
> > >
> > >
> > > --
> > > Sent from: http://apache-flink.147419.n8.nabble.com/
> >
> >
> >
> > --
> > Best,
> >   pp
>


-- 
Best,
  pp


Re: flink1.12版本,yarn-application模式Flink web ui看不到日志

2021-06-04 Thread r pp
上封,复制错了,更正下,看时间顺序。 日志启动
2021-06-04 17:38:15,417 INFO org.apache.flink.runtime.entrypoint.
ClusterEntrypoint [] - -Dlog
.file=/yarn/container-logs/application_1622784975053_0013/container_1622784975053_0013_01_01/jobmanager.log
cluster 启动
2021-06-04 17:38:15,425 INFO org.apache.flink.runtime.entrypoint.
ClusterEntrypoint [] - YARN daemon is running as: hdfs Yarn client user
obtainer: hdfs

r pp  于2021年6月4日周五 下午6:11写道:

> 嗨~
>  我这边是  per-job on yarn 的mode
>
>  我查看的 yarn 的container 的日志信息,一般在程序初始化的时候,就会生产日志名,日志路径,变成环境env,
>  然后 形成config ,再启动 cluster。
>
> 而日志路径 是yarn 的配置模式取好的,之后 flink 的获取这个信息,用于web 展示。
>
> 所以,你可能需要定位 你的日志文件路径 是否有改变,我做test,改变日志名,flink-web 还是可以正常显示
> ,但是改变路径,flink-web 就无法显示了
>
> 但是具体的差异可能无法细化了,所提供的信息太少
> env 环境信息
> 2021-06-04 17:38:15,417 INFO org.apache.flink.runtime.entrypoint.
> ClusterEntrypoint [] - -Dlog
> .file=/yarn/container-logs/application_1622784975053_0013/container_1622784975053_0013_01_01/jobmanager.log
> cluster 启动信息
> 2021-06-04 16:47:01,429 INFO org.apache.flink.runtime.entrypoint.
> ClusterEntrypoint [] - YARN daemon is running as: hdfs Yarn client user
> obtainer: hdfs
>
> zilong xiao  于2021年6月3日周四 下午2:17写道:
>
>> 1.10默认用的log4j1,1.12用log4j2
>>
>> smq <374060...@qq.com> 于2021年6月2日周三 下午3:26写道:
>>
>> >
>> >
>> 你的意思是在log4j.properties中的配置吗,我门在这个里边配置了生成日志文件的格式,是在安装节点里加的,不过这个应该不是在webui里显示的。奇怪的一点是我们组有别的程序是正常的,但是一部分在webUI不显示日志。我们目前是从1.10升级到1.12,这种情况在1.12出现的
>> >
>> >
>> >
>> >
>> >
>> > -- 原始邮件 --
>> > 发件人: r pp > > 发送时间: 2021年6月2日 15:08
>> > 收件人: user-zh > > 主题: 回复:flink1.12版本,yarn-application模式Flink web ui看不到日志
>> >
>> >
>> >
>> > 嗨~  你们有没有改日志文件的名字
>> >
>> > smq <374060...@qq.com> 于2021年6月2日周三 下午12:24写道:
>> >
>> > > 你这个解决了吗,我也遇到了同样的问题
>> > >
>> > >
>> > >
>> > >
>> > >
>> > > -- 原始邮件 --
>> > > 发件人: todd > > > 发送时间: 2021年4月14日 19:11
>> > > 收件人: user-zh > > > 主题: 回复:flink1.12版本,yarn-application模式Flink web ui看不到日志
>> > >
>> > >
>> > >
>> > >  yarn上只有.out,.error的日志信息,但是从flink web ui的log框,无法显示日志内容。
>> > >
>> > >
>> > >
>> > > --
>> > > Sent from: http://apache-flink.147419.n8.nabble.com/
>> >
>> >
>> >
>> > --
>> > Best,
>> >   pp
>>
>
>
> --
> Best,
>   pp
>


-- 
Best,
  pp


回复:flink1.12版本,yarn-application模式Flink web ui看不到日志

2021-06-04 Thread smq
非常感谢,我明天测试一下,解决之后,我会把这个问题描述下





-- 原始邮件 --
发件人: r pp http://apache-flink.147419.n8.nabble.com/
>> >
>> >
>> >
>> > --
>> > Best,
>> >   pp
>>
>
>
> --
> Best,
>   pp
>


-- 
Best,
  pp

Re: Flink checkpoint 速度很慢 问题排查

2021-06-04 Thread yidan zhao
官方就有文档。其实本质就是一个异步操作假设1ms,那么同步操作的1s也就能1000个操作,qps太低了。异步的话可以大大提高qps。

Jacob <17691150...@163.com> 于2021年6月4日周五 下午5:58写道:
>
> 嗯嗯 你的描述是对的,job的执行过程大致就是如此
>
>
> 我明白你意思了
>
> 谢谢你提供的思路,我需要学习一下这个异步算子,之前从未接触过,不太清楚这具体是一个怎样的流程,请问你那边有相关的demo吗,或者该去具体去看哪部分的内容?
>
>
>
>
>
> -
> Thanks!
> Jacob
> --
> Sent from: http://apache-flink.147419.n8.nabble.com/


退订

2021-06-04 Thread happiless
退订


发自我的iPhone

Re: Flink checkpoint 速度很慢 问题排查

2021-06-04 Thread Jacob
thanks,

我查看了相关文档[1] 由于redis以及hbase的交互地方比较多,比较零散,不光是查询,还有回写redis

我打算把之前map算子的整段逻辑以线程池的形式丢在asyncInvoke()方法内部,不知道合适与否,这样数据的顺序性就无法得到保障了吧?



[1] 
https://ci.apache.org/projects/flink/flink-docs-release-1.13/zh/docs/dev/datastream/operators/asyncio/

  



-
Thanks!
Jacob
--
Sent from: http://apache-flink.147419.n8.nabble.com/


flink sql调整算子并行度的方法有哪些?

2021-06-04 Thread casel.chen
flink sql调整算子并行度的方法有哪些?通过 sql hint 可以调整吗?

回撤流的窗口统计

2021-06-04 Thread casel.chen
上游是binlog cdc消费获取的回撤流,现要使用flink sql统计分析该回撤流上每5分钟的sum值,不能使用常规tumble 
window是吗?只能使用group by ts配合state TTL进行?
另外,问一下flink sql的state TTL只能是全局设置吗?能够通过在sql hint上添加从而可以细粒度控制吗?

退订

2021-06-04 Thread happiless
退订


发自我的iPhone