想请教大佬们一下。谢谢!

我有一个处理逻辑很简单的job,从kafka消费数据,分组后(分组个数不大,大约2-3万个key)按分钟累加后统计10多个指标的均值,用的是aggregate 
function,结果最后写入kafka。数据量大约6-8W/s,job总体并行度设为10,目前启动3个yarn 
container作为tm每个2G内存,机器均为8C32G的虚机,每台上一个tm进程,目前观察到内存占用低,但%cpu会到200%多。

我是不是可以理解为我这个job总的需要占用
6-7个cpu核的资源,也就是说1C的性能,flink处理的数据大概在1W/s。这样的性能算是正常吗?还是我代码有问题

昨天晚上上游突然数据量翻了个倍,观察到进程cpu占用增长到接近400%。这是因为yarn不限制cpu使用吗?那如果数据量再翻一倍,cpu不就打满了吗,就太糟糕了。


发自我的iPhone

回复