Huny created FLINK-38349: ---------------------------- Summary: Bugs caused by floating-point operations Key: FLINK-38349 URL: https://issues.apache.org/jira/browse/FLINK-38349 Project: Flink Issue Type: Bug Components: Runtime / Task Affects Versions: 1.13.0 Environment: 所有环境 Reporter: Huny Attachments: image-2025-09-12-09-05-54-870.png, image-2025-09-12-09-06-10-159.png
org.apache.flink.runtime.operators.sort.SpillingThread#mergeChannelList 方法中,代码 final double scale = Math.ceil(Math.log(channelIDs.size()) / Math.log(this.maxFanIn)) - 1; 进行计算得到的结果是不准确的。 例如: 如果 maxFanIn = 5 且 channelIDs =125 ,则 Math.log(channelIDs.size()) / Math.log(this.maxFanIn) = 3.0000000000000004,所以 scale = 3 。 numStart = 125, numEnd = 125(maxFanIn 的 sacle 次方),这会导致 numToMerge 为 0 。从而最终使变量 channelsToMergePerStep 为 0。 在之后的处理逻辑中出现 /by zero 异常。 总得来说出现这样的问题有很多可能,比如 如果channelIDs 大于等于 maxFanIn 的三次方的情况,则会出现问题的 maxFanIn 有 5, 6, 18, 25, 36, 47, 66, 75, 80, 86, 131, 143, 148 .... 如果channelIDs 大于等于 maxFanIn 的五次方的情况,会出现问题的 maxFanIn 有 7, 19, 20, 45, 49, 50, 58, 65, 67 ... 而我的环境报错,分析发现 maxFanIn 为 18 ,而 channelIDs 为7055, 它大于等于了 18 的三次方,触发了这个BUG。 -- This message was sent by Atlassian Jira (v8.20.10#820010)