应该是所有operator完成各自的pre-commit,它们会发起一个commit操作,然后才会flush
1193216154 <1193216...@qq.com> 于2020年2月27日周四 下午5:30写道:
> 各位大神好,有个困惑。用FlinkKafkaProducer011写kafka的exactly
> once,比如我的checkpoint是十分钟,是否在十分钟之内,都不会往kafka下游发送数据。因为我看flink源码,是有在执行snapshotState的时候才kakfa的producer才flush了。
Hi,
如果说插入两条update操作呢,一次分数是-97,一次是97
Ren Xie 于2020年1月14日周二 下午6:20写道:
> 实际场景还是有点复杂的, 便于理解 我简化成这样的, 简化后的这个, 没有实际的代码, 抱歉
>
> 大致 写一下 也就是这样了
> ```sql
> select sum(score)
> from
> student t1 inner join score t2 on t1.student_id = t2.std_id
> where
> t1.student_id = 11
> ```
> 然后
>
>
Hi,lucas.wu:
我个人觉得可以把join的条件和流对应的数据存放在mapstate中,每次维表的缓存更新数据之后,去mapstate中查询,如果存在对应的KV,将新关联后的数据下发;
不过这样state会占用很大的内存,需要主意state的清理
lucas.wu 于2019年12月25日周三 下午5:13写道:
> hi all:
> flink的kafka流表与hbase维表关联,维表后面有变动的话,如何将之前关联过的数据进行更新?
监控的话,我推荐使用pushgateway+prometheus+grafana来构建,建议参考flink官网的metric方面;
这是我在网上看到的方案https://blog.csdn.net/cheyanming123/article/details/101298609
Terry Wang 于2019年11月11日周一 下午2:55写道:
> Hi, 李军~
>
> 1. 自建集群是哪种方式? 可以考虑通过yarn集群的per job模式来部署作业,集群的监控可以直接通过yarn的资源管理实现
> 2. 任务需要更新的时候 可以kill job,保留state
>