Re: [R-es] Normalidad variable > 5000 observaciones

José Trujillo Carmona Mon, 27 Apr 2020 00:18:46 -0700

Efectivamente Guido tiene razón. Una prueba de normalidad a una muestraque supera las 5000 observaciones no tiene mucho sentido.

Igual que ningún dado es exactamente equiprobable, a algún nivel dedetalle habrá una irregularidad que lo haga en algún sentido defectuoso,ninguna variable real es exactamente normal. La distribución normal esuna distribución teórica que es esperable que aparezca mucho comoconsecuencia del teorema del límite central; pero solo igual que eldado. Son modelos teóricos para predecir comportamientos que en lanaturaleza solo aparecerán de forma aproximada.

Si tienes muchas observaciones, las desviaciones del modelo se haránrelevantes y algún tests adecuado mostrará que es una variable real y noun modelo teórico.

Si deseas predecir observaciones con mucha precisión en la probabilidadasociada a las predicciones, en lugar de utilizar una distribuciónteórica tienes algunas alternativas. Por una parte puedes estimar lapropia distribución de probabilidad mediante núcleos (consultarstats::density y car::densityPlot) o mediante técnicas de bootstrap.

Por otra parte, si el objetivo es la aplicación de técnicasparamétricas, el propio teorema sirve para resolver el problema. Lamayoría de los estadísticos utilizados en los métodos paramétricospueden ser escritos como combinaciones lineales de las observaciones, loque permite tratarlos como si tuviesen distribución aproximadamentenormal. Por otro lado si, note fías o te es insuficiente, los métodosbasado en bootstrap vuelven a ser una solución más que adecuada.

En definitiva, aunque puedo estar equivocado, no se me ocurre lanecesidad de aplicar contrastes de normalidad útiles a enormes muestras.


Saludos.

El 26/4/20 a las 17:49, Guido Corradi escribió:

Las pruebas de normalidad en muestras grandes sufren de sobre-sensiblidad.
Según lo que he leído (y cualquier reviewer aceptará...) cuando hay una
muestra grande la inspección visual del qq-plot será suficiente!


El dom., 26 abr. 2020 a las 12:51, Carlos Ortega (<c...@qualityexcellence.es>)
escribió:

Hola,

Aquí tienes una forma alternativa:


https://stackoverflow.com/questions/17125458/r-shapiro-test-cannot-deal-with-more-than-5000-data-points

Saludos,
Carlos Ortega
www.qualityexcellence.es

El dom., 26 abr. 2020 a las 12:11, Rafael Santamaria (<
rsantamar...@gmail.com>) escribió:

Hola!

Necesito evaluar la normalidad de una variable para la que tengo más de
5000 observaciones.

Shapiro-Wilks no funciona para muestras mayores 5000 observaciones.

AAlshap <- lapply(AAdf, shapiro.test)
Error in FUN(X[[i]], ...) : sample size must be between 3 and 5000

Alguna sugerencia?

Gracias.

         [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


--
Saludos,
Carlos Ortega
www.qualityexcellence.es

         [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] Normalidad variable > 5000 observaciones

Responder a