Re: 业务库刷数据瞬间cdc流量上涨打爆作业的问题有什么好的解决办法吗?

2023-03-17 文章 yue ma
你好,可以在source下发数据的时候做一些限速么 casel.chen 于2023年3月17日周五 10:53写道: > 使用flink cdc消费mysql binlog遇到业务库刷数据瞬间cdc流量上涨打爆作业的问题有什么好的解决办法吗?

Re: Key group is not in KeyGroupRange

2022-09-09 文章 yue ma
你好,可以看一下使用的 key selector 是否稳定,key 是否会变化。 junjie.m...@goupwith.com 于2022年9月9日周五 17:35写道: > hi: > 本人遇到了这个报错: > Key group 51 is not in KeyGroupRange{startKeyGroup=64, endKeyGroup=127}. > Unless you're directly using low level state access APIs, this is most > likely caused by non-deterministic

Re: Re: 关于flink的state

2022-08-30 文章 yue ma
anfei lei" 写道: > >Hi, > >1) state无法在不同的算子共享,如yue ma的建议,或许可以把需要共享的部分存储在外部系统,然后在两个map里访问同一个外部系统以实现共享 > >2) 除开operatorState,或许自定义一个总是返回相同值的keySelector,也可以把所有的key都聚合到一起。 > > > >yue ma 于2022年8月30日周二 14:20写道: > > > >> hi > >> 1) flink 内部的 state 算子之间

Re: flink自动重启出错

2022-08-24 文章 yue ma
ializer must not be incompatible with the old state serializer > > > | | > Jason_H > | > | > hyb_he...@163.com > | > 回复的原邮件 > | 发件人 | yue ma | > | 发送日期 | 2022年8月24日 16:48 | > | 收件人 | | > | 主题 | Re: flink自动重启出错 | > 你好 ~可以贴下更详细的报错 > > Hangxia

Re: flink自动重启出错

2022-08-24 文章 yue ma
你好 ~可以贴下更详细的报错 Hangxiang Yu 于2022年8月24日周三 13:10写道: > 是DS作业吗?可以share下使用state的部分吗? > > On Sat, Aug 20, 2022 at 3:35 PM Jason_H wrote: > > > 您好,改过任务,但是 是以新的任务启动的,改动很大,并不依赖之前老的任务 > > > > > > | | > > Jason_H > > | > > | > > hyb_he...@163.com > > | > > 回复的原邮件 > > | 发件人 | Michael Ran | > >

Re: flink 1.10.1 cep 使用flollowdby 同一条事件 模式1会匹配多次

2022-06-16 文章 yue ma
你好,可以把你的 pattern 和 输入数据,输出结果都贴出来看看。 沈保源 <757434...@qq.com.invalid> 于2022年6月16日周四 15:08写道: > flink 1.10.1 cep 使用flollowdby 同一条事件 模式1会匹配多次 ,在debug情况下发现 > 不知道为什么

Re: Flink写入CK数据丢失问题

2022-06-02 文章 yue ma
你好,你可以先看看你们的任务是否开启了 checkpoint ,以及任务运行的过程中是否发生了 failover lxk 于2022年6月2日周四 11:38写道: > 各位,请教个问题 > 目前使用flink往ck写入数据,使用的是datastream > api以及rocksdb状态后端,程序中了开了两个窗口,都是10秒级别。同时还使用了sql进行group by > 求和,求和的操作没有加窗口,同时streamtableenv 设置了状态生存时间为10s. >

Re: 计算UV时使用了PurgingTrigger仍旧发生taskManger OOM的问题

2022-03-27 文章 yue ma
看上去主要是 state 在heap中太大导致的, 建议可以切换为 RocksdbStatebackend yj h 于2022年3月27日周日 17:07写道: > 请教一个taskmanager oom的问题,我在计算一天的uv,采用ContinuousEventTimeTrigger 来3分钟触发一次 > > 配置相关: > 配置是2个机器,每个2核,slots设置的也是每个2,并行度是4,其他jobmanager和taskmanager的内存是默认配置 > > 目前采取的排查步骤: >

Re: RocksDB 读 cpu 100% 如何调优

2022-03-17 文章 yue ma
hi 我觉得这里可以注意两地方 首先 你可以观察一下这个时候 task 的吞吐量是多少 ,如果 qps 特别高 ,比如作业重最旧的offset 消费,我觉得这个时候 cpu 100% 是符合预期的。 其次 你可以在代码中加一些内存缓存的逻辑 类似于 mini-batch, 来减少和 state 交互的频率,也许这样能缓解一部分问题。 deng xuezhao 于2022年3月18日周五 11:19写道: > 退订 > > > > 在 Peihui He ,2022年3月18日 上午11:18写道: > > Hi, all > > 如题,flink 任务使用rocksdb

Re: Re: io.network.netty.exception

2022-03-09 文章 yue ma
hi , 解决这个问题需要对症下药,刚刚上面的回答也说到了,导致这个问题的原因很多,比如 gc 、网络原因等等。我觉得可以先看相关日志看到定位具体是什么原因,然后再看如何解决。比如 gc 问题 我们可以加大内存,或者优化代码等等 潘明文 于2022年3月8日周二 09:24写道: > HI , > 谢谢,有没有好的解决方案解决该问题呀? > > > > > > > > > > > > 在 2022-03-08 02:20:57,"Zhilong Hong" 写道: > >Hi, 明文: > > > >

Re: flink任务经常性报错

2022-03-06 文章 yue ma
这个报错的意思是有 TM 断开了连接,我觉得可以首先看看你们 'cdh02/xxx:42892' 这个丢失的 TM 的日志上有没有什么异常信息,如果没有的话也可以看看对应的机器监控有没有异常。 潘明文 于2022年3月7日周一 10:21写道: > HI 读kafka,入hbase和kafka > flink任务经常性报错 > > org.apache.flink.runtime.io.network.netty.exception.RemoteTransportException: > Connection unexpectedly closed by remote task

Re: FlinkSQL vs DataStream API 对硬件的需求

2022-02-17 文章 yue ma
Hello , Flink SQL 会将SQL解析、优化并最终翻译成DataStream作业,所以本质上跟直接用DataStream API直接写Flink作业没有根本的区别,反而会因为一些通用的优化和代码生成,在性能上可能会有一些提升。 Pinjie Huang 于2022年2月18日周五 11:28写道: > Hi all, > > 同样一个task 用flinksql 写和DataStreamAPI写比较,是否会占用更多的CPU和memory?是否有performance > 比较的benchmark? > > Thanks, > Pinjie Huang >

Re: cep 的困惑

2022-02-16 文章 yue ma
图片打不开,可以发下代码看看 翼 之道 于2022年2月16日周三 17:44写道: > 我写了一个demo程序进行简单的模式匹配,代码如下,但是每输入一个数据都是迟到的 > > > > 每输入一个数据 都通过迟到的流进行输出,没有进行模式匹配的计算 > > > > 请问这是为什么呢, 其他的复杂的模式匹配我都是验证成功的,这种最简单的为何得不到我想要的结果 >

Re: flink修改sink并行度后,无法从checkpoint restore问题

2021-10-21 文章 yue ma
hello 这个报错看上去并不是状态不兼容的报错。 我看代码 Sink 算子设置了uid 理论上是可以正确恢复的。 kong <62...@163.com> 于2021年10月21日周四 上午10:26写道: > hi,我遇到flink修改sink并行度后,无法从checkpoint restore问题 > > > flink 版本: 1.13.1 > flink on yarn > DataStream api方式写的java job > > > 试验1:不修改任何代码,cancel job后,能从指定的checkpoint恢复 >

Re: 关于CEP处理事件的问题

2021-06-11 文章 yue ma
hello ,使用EventTime的前提下是这样的。事件来了之后不会立即去触发匹配,而是会注册一个timer,然后将数据缓存起来。当后续有事件 advanceWatermark 触发 timer之后才会开始计算。 sherlock zw 于2021年6月10日周四 下午9:55写道: > 大佬们,请教一下,我现在使用CEP时遇到一个问题,我现在的场景是需要输入三次相同字符串打印一次匹配的List > 集合,但是遇到的问题是每次都需要输入第四条数据才会触发Pattern的select函数去打印List。 > > 具体实现代码如下: > > public class Run3 > *{

Re: 请教flink cep如何对无序数据处理

2021-05-21 文章 yue ma
这样可以嘛 > Pattern pattern = Pattern.begin("start").where(new > SimpleCondition() { >@Override >public boolean filter(Event value) throws Exception { > return value.getName().equals("a") || value.getName().equals("b"); >} > }).next("next").where(new IterativeCondition() { >

Re: FlinKCEP

2021-05-14 文章 yue ma
eventTime 和 processingTime 都支持的, 可以检查一下是否匹配的逻辑或者 proceccFunction 有问题 lp <973182...@qq.com> 于2021年5月14日周五 下午2:42写道: > 请教下,flinkCEP只能用在eventTime 模式下吗,因为我发现写了个cep程序,申明采用processingTime,没有数据发出 > > > > -- > Sent from: http://apache-flink.147419.n8.nabble.com/

Re: Flink CEP 使用Keyby之后无法输出结果

2021-04-13 文章 yue ma
你这个数据是啥样,预期的结果是啥样。 KeyedStream 会为每个key单独去匹配的 HunterXHunter <1356469...@qq.com> 于2021年1月13日周三 下午5:41写道: > Pattern.begin("start") > .where(new > SimpleCondition() { > @Override > public boolean

Re: Flink实时数仓落Hive一般用哪种方式好?

2019-12-09 文章 yue ma
可以用改写StreamingfileSink的方式去直接写orc文件 不过这种方式的分区需要手动添加 陈帅 于2019年12月8日周日 上午10:04写道: > 有人说直接写到HBase,再在Hive关联Hbase表 > 但是我想直接写文件到HDFS,再通过Hive外表加载,不过有几个问题不明白: > > 1. 如果用行式格式实时写没有问题,StreamingFileSink也支持,但是如果我想用列式格式(如Parquet或ORC) > 写的话,目前来看没有现成的Streaming > Writer,官方提供的都是 >