你是用的Filesystem connector读写hdfs的吗?

>>>>>>>是的





由于source和sink的并发已经确定了,中间不管哪个阶段进行shuffle,其实对首尾的处理速度应该影响不大。


>>>>>>>现状是首尾处理速度的确影响不大,但是"shuffle个过程的数据传输速度" 在 "不同的位置"  差异很大。

当我把shuffle加到cal和sort中间时,

source(640并发)-->cal(640并发)--
(rebalance)->sort(64并发)--->SinkConversionToRow(64并发)--->sink(64并发)

shuffle的数据传输IO速度是3G/s,370G文件传输花费2分钟。

当我把shuffle加到SinkConversionToRow和sink中间时,

source(640并发)-->cal(640并发)--
->sort(640并发)--->SinkConversionToRow(640并发)--(rebalance)-->sink(64并发)

shuffle的数据传输IO速度是0.1G/s,250G文件传输花费40分钟。






--
Sent from: http://apache-flink.147419.n8.nabble.com/

Reply via email to