Ignacio Gómez created SPARK-25996: ------------------------------------- Summary: Agregaciones no retornan los valores correctos con rows con timestamps iguales Key: SPARK-25996 URL: https://issues.apache.org/jira/browse/SPARK-25996 Project: Spark Issue Type: Bug Components: PySpark Affects Versions: 2.4.0, 2.3.1 Environment: Windows 10 PyCharm 2018.2.2
Python 3.6 Reporter: Ignacio Gómez Qué, tal? Al utilizar pyspark realizo una operación de conteo de registros previos a la fecha anterior de la row actual, incluyendo en el conteo la row actual, con la correspondiente query: query = """ select *, count(*) over (partition by ACCOUNTID order by TS range between interval 5000 milliseconds preceding and current row) as total_count from df3 """ df3 = sqlContext.sql(query) y retorna lo siguiente: !image-2018-11-09-18-25-55-296.png! Como se puede apreciar, en la tercera row, el total_count debería dar 3 en vez de 2 porque existen 2 registros previos y no 1. En las rows siguientes, se arrastra el error. Esto ocurre con las demás operaciones de agregación. Más allá de que la fecha de las primeras rows sea la misma, eso no quita que estas dos existan y no debería considerarse como que la única que existe es la última que tenga la misma fecha. Me podrían ayudar? Muchas gracias -- This message was sent by Atlassian JIRA (v7.6.3#76005) --------------------------------------------------------------------- To unsubscribe, e-mail: issues-unsubscr...@spark.apache.org For additional commands, e-mail: issues-h...@spark.apache.org