Re: 用FlinkKafkaProducer011写kafka的exactly once的困惑

2020-02-27 文章 xin Destiny
应该是所有operator完成各自的pre-commit,它们会发起一个commit操作,然后才会flush 1193216154 <1193216...@qq.com> 于2020年2月27日周四 下午5:30写道: > 各位大神好,有个困惑。用FlinkKafkaProducer011写kafka的exactly > once,比如我的checkpoint是十分钟,是否在十分钟之内,都不会往kafka下游发送数据。因为我看flink源码,是有在执行snapshotState的时候才kakfa的producer才flush了。

Re: 求助帖: 流join场景可能出现的重复计算

2020-01-14 文章 xin Destiny
Hi, 如果说插入两条update操作呢,一次分数是-97,一次是97 Ren Xie 于2020年1月14日周二 下午6:20写道: > 实际场景还是有点复杂的, 便于理解 我简化成这样的, 简化后的这个, 没有实际的代码, 抱歉 > > 大致 写一下 也就是这样了 > ```sql > select sum(score) > from > student t1 inner join score t2 on t1.student_id = t2.std_id > where > t1.student_id = 11 > ``` > 然后 > >

Re: flink 维表关联

2019-12-25 文章 xin Destiny
Hi,lucas.wu: 我个人觉得可以把join的条件和流对应的数据存放在mapstate中,每次维表的缓存更新数据之后,去mapstate中查询,如果存在对应的KV,将新关联后的数据下发; 不过这样state会占用很大的内存,需要主意state的清理 lucas.wu 于2019年12月25日周三 下午5:13写道: > hi all: > flink的kafka流表与hbase维表关联,维表后面有变动的话,如何将之前关联过的数据进行更新?

Re: flink 集群

2019-11-11 文章 xin Destiny
监控的话,我推荐使用pushgateway+prometheus+grafana来构建,建议参考flink官网的metric方面; 这是我在网上看到的方案https://blog.csdn.net/cheyanming123/article/details/101298609 Terry Wang 于2019年11月11日周一 下午2:55写道: > Hi, 李军~ > > 1. 自建集群是哪种方式? 可以考虑通过yarn集群的per job模式来部署作业,集群的监控可以直接通过yarn的资源管理实现 > 2. 任务需要更新的时候 可以kill job,保留state >