@flink.apache.org
主题: Re: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以
单分区情况下30MB,这和flink已经没关系了貌似。能否更高的消费,首先还得确认你是否由足够快的速度写入压测数据。
而kafka不论是写入还是消费都和分区数量有关系。所以压测flink的最高能力,首先你得压测kafka拿到一个你预设的最高压力,否则kafka分区1个,如果qps最高达到2w。那么你基于这个单分区kafka去压测flink,flink也不可能超过1w的qps去消费,懂吧?
压测flink,那么kafka部分你就得尽
多观察测试一下。
> 再次感谢
>
> -邮件原件-
> 发件人: Benchao Li [mailto:libenc...@apache.org]
> 发送时间: 2020年9月24日 星期四 16:06
> 收件人: user-zh
> 主题: Re: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以
>
> 我们一般提升作业吞吐能力的步骤就是看作业的反压情况,
> - 如果作业完全没有反压,说明此时处理能力大于上游数据产生速度
>
afka的瓶颈。
>
> 范超 于2020年9月25日周五 下午2:28写道:
>
>> 感谢benchao哥这么快就回复了。我这边再多观察测试一下。
>> 再次感谢
>>
>> -邮件原件-
>> 发件人: Benchao Li [mailto:libenc...@apache.org]
>> 发送时间: 2020年9月24日 星期四 16:06
>> 收件人: user-zh
>> 主题: Re: FlinkKafkaConsumer on Yarn 模式下 设
感谢benchao哥这么快就回复了。我这边再多观察测试一下。
再次感谢
-邮件原件-
发件人: Benchao Li [mailto:libenc...@apache.org]
发送时间: 2020年9月24日 星期四 16:06
收件人: user-zh
主题: Re: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以
我们一般提升作业吞吐能力的步骤就是看作业的反压情况,
- 如果作业完全没有反压,说明此时处理能力大于上游数据产生速度
- 如果作业有反压,就具体看下反压的是哪个算子,存在什
磊哥,我想再多问一个问题。
若topic只有一个分区的情况下。。
我这边压了一下,网卡流量大概是30Mbit/s,不知道如何提高这个消费速度才好,压测程序是个很简单的source,并丢弃的处理。
-邮件原件-
发件人: 范超
发送时间: 2020年9月24日 星期四 10:49
收件人: user-zh@flink.apache.org
主题: 答复: 回复:FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以
感谢磊哥,后来发现确实是这个问题导致。
Source节点的并行度取决于topic
> 的tm的内存大小,kafka的partition数目,也无法将作业的吞吐量压上去。
>
>
>
> -邮件原件-
> 发件人: Benchao Li [mailto:libenc...@apache.org]
> 发送时间: 2020年9月18日 星期五 18:49
> 收件人: user-zh
> 主题: Re: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以
>
> 提交两个作业的话,两个作业是完全独立的,都会消费全量数据。
>
> 一个
感谢磊哥,后来发现确实是这个问题导致。
Source节点的并行度取决于topic的分区数
-邮件原件-
发件人: 吴磊 [mailto:wuleifl...@foxmail.com]
发送时间: 2020年9月18日 星期五 16:29
收件人: user-zh
主题: 回复:FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以
hello,Source节点并行度的有效性是取决于topic对应的分区数的。比如如果你只有6个分区,那你12个并行度和6个并行度的消费速度是一样的
再请多问您一句,我如果想压出作业的极限吞吐量,请问该如何设置一些运行参数,目前我通过设置on yarn
的tm的内存大小,kafka的partition数目,也无法将作业的吞吐量压上去。
-邮件原件-
发件人: Benchao Li [mailto:libenc...@apache.org]
发送时间: 2020年9月18日 星期五 18:49
收件人: user-zh
主题: Re: FlinkKafkaConsumer on Yarn 模式下 设置并行度无法提高kafka的消费速度,但是提交两个应用却可以
提交两个作业的话,两个作业是完全独立的,都会消费全量数
单个app的网卡输出有上限是因为读取 kafka 的并发是有限的:
对一个 group,为了保证同一 partition 内消息的有序,需要确保同一个 partition 只有一个 consumer.因此你的
partition 个数决定了 consumer 的个数,是有上限的。
多个 app 是多个 group,所以观察到网卡流量也就上来了
所以本质上还是得看下当前是 kafka 消费的瓶颈还是计算时效的问题,如果是前者就增加partition,后者提高并发才有用。
刚接触flink时看到别人的一个情况:
1. kafka partition > flink parallelism,一
HI
我理解你的 kafka 生产数据的速度比较慢 你并发设置的再大都是没有用的 正常 source 的并行度设置和 kafka 的 partition
个数相等就可以了
-
Best Wishes
JasonLee
--
Sent from: http://apache-flink.147419.n8.nabble.com/
提交两个作业的话,两个作业是完全独立的,都会消费全量数据。
一个作业的消费能力不行,可以具体看下瓶颈在哪里,比如:
1. 作业是否有lag,如果没有lag,那其实是没有问题的
2. 如果作业有lag,而且lag还在上涨,说明当前消费能力不足,此时可以看下作业具体的瓶颈在哪里
有可能是某个算子在反压导致整个作业的消费能力不足
也有可能是作业的整体CPU资源不足导致的
也有一种极端情况是,作业的并发度已经足够大,source subtask已经对应一个kafka
partition了,但是消费能力还是不足,这个时候其实是单个partition数据量太大,对应到Flink
各位好,我遇到了一个奇怪的问题
我是使用flink1.10和 flink-connector-kafka_2.11
使用Flink on yarn 模式运行,无论怎么调大并行度。Kafka节点(我使用的单节点)的网卡输出速度一直上不去。
但是提交两个同样的应用同样使用FLink on Yarm模式,Kafka节点的网卡输出速度是正常翻倍的。
我想达到的目的不是通过多向yarn集群提交多一个app,而是通过设置并行度来提高应用的吞吐量。。
求各位大佬指导
12 matches
Mail list logo