flink kafka 数据丢失

2020-08-19 Thread steven chen
hi: 版本:flink 1.10 +kafka +hive catalog 现在我是使用flinkSql ddl 在hivecatalog 注册元数据表,现在启动了4个job ,kafka 4个分区,然后4job 分别根据自己需求去根据hivecatalog 元数据表进行统计,但是出现其中2个job 丢了1条数据,查看kafka 分区偏移量丢失数据分区的偏移量少1。相当于所有任务都共用一个元数据,但是各个统计的任务比如天统计和时统计最后的总数发生偏移,比如天统计为50,时统计则51 | Partition | Latest Offset | Leader | Rep

Re: flink kafka 数据丢失

2020-08-19 Thread 赵一旦
问题123等其他人,问题4:我感觉本质上区别不大,如果你资源也完全对等的话,比如最终总体分配内存量相同。而且也没必要启10个taskmanager,唯一好处是更加隔离,比如某个taskmanager失败不会导致全部slot失败。但感觉10个tm的方式从linux角度估计会稍微浪费部分资源。 steven chen 于2020年8月20日周四 上午9:23写道: > hi: >版本:flink 1.10 +kafka +hive catalog > > >现在我是使用flinkSql ddl 在hivecatalog 注册元数据表,现在启动了4个job ,kafka 4个