Ruego a los miembros de la lista disculpas por mi torpeza y el desajuste de los mensajes.
Suelo dar "contestar" a los mensajes que contesto y en esta lista tengo que acordarme de pinchar en "contestar a la lista". Envié mi última contestación solo a Carlos y el me ha contestado avisando del error de procedimiento y explicando mejor bajo que situación muy plausible la diferencia sí eliminaría la autocorrelación. Creo que no cabe objeción a su consideración actual, si el efecto temporal es exactamente el mismo, si no está desplazado en el tiempo ni en intensidad (siempre 4 grados y la diferencia es en el mismo tiempo) efectivamente la diferencia eliminaría la autocorrelación. Ya digo en anterior mensaje que la solución para sabe en qué caso estamos es fácil: se aplica la diferencia y se contrasta la independencia. Saludos. El 30/03/16 a las 01:07, Carlos J. Gil Bellosta escribió: > Hola, ¿qué tal? > > Me has escrito solo a mí. No sé si querías mandar el mensaje a la > lista o no. > > En cualquier caso, estamos de acuerdo. Bajo tus hipótesis, no tengo > nada que objetar. > > Yo tenía en mente otra estructura para el problema: la del que dice > "en Colmenar [siempre] hace 4 grados menos que en Madrid". Es decir, > que si la temperatura de Madrid es de 12 grados, en Colmenar estará > haciendo alrededor de 8. De otra manera, T_c = T_m - N(4, sigma). > > No sé cómo de lejos estarán los sensores del tipo que ha escrito la > pregunta, pero _mi_ estructura probabilística puede justificarse en > algunos casos. Para Madrid y Colmenar, por ejemplo. He bajado las > temperaturas de las últimas 24 horas en Madrid (Barajas) y Colmenar > <http://www.aemet.es/es/eltiempo/observacion/ultimosdatos?k=mad&l=3191E&w=0&datos=det&x=h24&f=temperatura> > > (en el problema original también había una serie de 24 medidas) y mira: > > aeropuerto <- > read.csv("/home/carlos/Downloads/ultimosdatos_3129_datos-horarios.csv", skip > = 2, fileEncoding = "latin1") > aeropuerto <- aeropuerto[,2] > > colmenar <- > read.csv("/home/carlos/Downloads/ultimosdatos_3191E_datos-horarios.csv", > skip = 2, fileEncoding = "latin1") > colmenar <- colmenar[,2] > > temperaturas <- > structure(list(aeropuerto = c(10.9, 12.7, 14.9, 15.8, 17.5, 18.5, > 18.8, 18.4, 17.9, 17.4, 16.1, 14.9, 13.6, 12.8, 11.5, 10.5, 9.9, > 9.8, 9.8, 9.7, 9.4, 8.8, 9.9, 11), colmenar = c(8.4, 9.4, 10, > 11.2, 12.5, 14.3, 14.1, 14.3, 13.5, 12.9, 12.2, 11.4, 10.3, 8.4, > 7.3, 7, 7.1, 6.6, 6.4, 6.3, 6.2, 5.9, 5.7, 6.2)), .Names = c("aeropuerto", > "colmenar"), row.names = c(NA, -24L), class = "data.frame") > > plot(aeropuerto, ylim = c(min(colmenar), max(aeropuerto)), type = "l") > lines(colmenar, col = "red") > > Y si tomas diferencias verás que no parecen seguir ningún tipo de > patrón temporal. > > Ahora bien, ¿puedo hacer un t-test? Casi seguro que no se justifica > del todo por el hecho de que sobreestimo los grados de libertad > (piensa que podría tener tantos como quisiera tomando, por ejemplo, > medidas de temperatura cada nanosegundo). Pero no sería una solución > "tremendamente mala". Incluso podría ponerme en el lado conservador de > infraestimar el número de grados de libertad (i.e., usar una t de > Student con un par de grados de libertad y aún así encontrar > diferencias significativas). > > La otra alternativa sería crear un modelo que ajuste la temperatura en > función de la hora y la ubicación (p.e., usando GAM) y viendo si mi > coeficiente de la ubicación es significativamente distinto de cero. De > nuevo, todo lo anterior, bajo _mis_ hipótesis. Que seguro que no se > cumplen si las ubicaciones son Madrid y Santander. > > Ahora bien, no sabemos cuáles (las tuyas o las mías) son más creíbles > en el caso que da lugar a la pregunta. ¡No nos lo han dicho! > > Un saludo, > > Carlos J. Gil Bellosta > http://www.datanalytics.com > > > > > El 29 de marzo de 2016, 17:33, José Trujillo Carmona > <truji...@unex.es> escribió: > > No estoy de acuerdo con Carlos. > > Si la estructura temporal viniese dada por un modelo determinista, > como si el tiempo fuese una variable extrínseca, y con la misma > función y los mismos parámetros, Carlos tendría razón. > > Pero si la estructura temporal es de naturaleza estocástica, como > un modelo ARIMA por ejemplo, entonces no es cierto que las > diferencias eliminen la estructura. > > Ejemplo al canto. Me ciño al modelo MA(1) donde es más fácil de > probar. Todo modelo ARIMA se puede expresar como un MA(inf) así > que lo que digo es generalizable. > > En el modelo MA(1) la estructura de las observaciones es: > > X(t) = m1 + e(t) + q e(t-1) > > Donde m1 es la media de la serie (en un residuo de un modelo, > normalmente es cero) e(1), e(2), ... e(t) son ruido blanco. > > Una segunda serie con la misma estructura (coeficiente) q vendría > dada por: > > Y(t) = m2 + f(t) + q f(t-1) > > Donde f(1), f(2), ... f(t) son igualmente ruido blanco incorrelado > con el anterior. > > Las diferencias son: > > X(t) = m1 - m2 + e(t) - f(t) + q (e(t-1) - f(t-1)) = mD + g(t) + > q g(t-1) > > Donde evidentemente MD = m1 -m2 > y g(t) = e(t) - f(t) es también ruido blanco. > > Como se puede ver las diferencias guardan la misma estructura que > las series originales. > > Y tampoco la diferencia eliminaría la estructura si ésta fuese por > ejemplo una sinusoide algo desfasada, en la que ocurriría algo > similar al modelo ARIMA. Incluso si fuesen dos sinusoides en fase > pero con distinta amplitud la estructura temporal se mantendría. > Creo que es fácil de comprobar, no me voy a extender aquí. Un > pequeño gráfico que se verá solo con fuentes anchura constante: > > X ^"-._.-"^"-._ > > Y "-._.-"^"-._. > > D=X-Y > D ----....----. > > > En el caso que nos ocupa, asumir que dos lugares muy alejados no > solo tienen el mismo comportamiento temporal, sino que se trata de > dos sinusoides en fase y con la misma amplitud (único caso en el > que desaparece la estructura temporal mediante la diferencia) me > parece poco probable. > > De todos modos una vez hallada la diferencia se puede probar si > sonase la flauta. > > Saludos. > > > El 29/03/16 a las 14:08, Carlos J. Gil Bellosta escribió: >> Hola, ¿qué tal? >> >> Estoy de acuerdo en todo menos en una cosa: que si las series están >> autocorrelaccionadas (que lo estarán casi seguro), las diferencias >> también >> lo estarán (necesariamente). Porque la primera cosa que se me ocurre (y >> no >> me parece descabellada) es que si el efecto de la ubicación es aditivo, >> es >> decir, si las temperaturas son >> >> temp(t) + a1 + e1(t) para el sitio 1 >> temp(t) + a2 + e2(t) para el sitio 2 >> >> al tomar las diferencias hora a hora desaparecería el efecto de la serie >> temporal subyacente, independientemente de su estructura y la prueba >> pareada lo sería sobre la diferencia entre a1 y a2. Y la prueba por >> parejas >> (de horas) tendría sentido. >> >> Se puede comprobar (incluso a ojo; o más bien, primero y >> fundamentalmente a >> ojo) si las diferencias tienen algún tipo de estructura temporal; en este >> caso, quedaría invalidado todo lo dicho. Por supuesto. >> >> Eso sí, sigue existiendo el problema de si las diferencias se deben a las >> ubicaciones o a los sensores. >> >> Salud, >> >> Carlos J. Gil Bellosta >> http://www.datanalytics.com >> >> El 29 de marzo de 2016, 12:15, José Trujillo Carmona<truji...@unex.es> >> <mailto:truji...@unex.es> >> escribió: >> >>> En mi modesta opinión el problema planteado no es con las réplicas. >>> >>> Efectivamente el problema de las réplicas existe. Al haber un único >>> sensor >>> en cada sitio no podrás saber si las diferencias las crea el sitio o el >>> sensor. Para mí la solución, si fuese factible, sería intercambiar >>> sensores >>> un tiempo. >>> >>> Pero en todo caso el problema planteado creo que es comparar los dos >>> conjuntos de datos, con la salvedad de que las diferencias pueden ser >>> debidas al sitio o al sensor. Este problema topa con el problema >>> principal >>> de la falta de independencia entre observaciones. >>> >>> El test de Mann-Whitney-Wilcoxon, como los tests paramétricos >>> convencionales, incluyen la suposición de que se está trabajando con una >>> muestra obtenida mediante muestreo aleatorio simple, o lo que es lo >>> mismo >>> que los sucesivos valores encontrados son independientes entre sí. De >>> hecho >>> el calculo de la distribución de probabilidad del estadístico de >>> contraste >>> depende fuertemente de esta suposición. >>> >>> La solución que propone Carlos (tomar diferencias en datos apareados) no >>> resuelve para nada el problema: si las series están autocorrelacionadas, >>> las diferencias también lo estarán. >>> >>> En métodos paramétricos la solución es eliminar las componentes de >>> autocorrelación hasta conseguir que la serie sea ruido blanco. Las >>> soluciones no paramétricas suele ir en la misma dirección; aunque no >>> creo >>> que esté indicada la estimación de un modelo ARIMA (paramétrico). Ahora >>> mismo no tengo tiempo de buscar las soluciones concretas, pero yo iría >>> en >>> la siguiente dirección: >>> >>> 1º Comprobar si efectivamente la serie está autocorrelacionada mediante >>> algún test tipo test de Wald-Wolfowitz (ver en el paquete randtests). >>> Si no >>> lo estuviese la utilización directa de Mann-Whitney no tendría ningún >>> problema. >>> >>> 2º Eliminar la autocorrelación mediante procedimientos de suavizado que >>> por no necesitar la estimación de parámetros son "free distribution" >>> como >>> los de Suavizado Exponencial de Brown o los más complejos de Holt o >>> incluso >>> Holt-Winter. >>> >>> Con los residuos de la serie suavizada (o alisada) hasta que las >>> observaciones sean independientes entre sí, utilizar el test de >>> Mann-Whitney. >>> >>> Saludos. >>> >>> >>> >>> El 29/03/16 a las 10:05, Carlos J. Gil Bellosta escribió: >>> >>>> Hola, ¿qué tal? >>>> >>>> En el peor de los casos, tendrías que comparar parejas de temperaturas >>>> (por >>>> hora). Es decir, con paired = T. Aún así, como dices, tendrías el >>>> problema >>>> de la correlación entre medidas. >>>> >>>> En este caso, como en casi todos, lo ideal es plantear un modelo >>>> similar a >>>> >>>> temp ~ temp(h) + sitio + error >>>> >>>> y ver si el coeficiente de sitio es o no cero. El problema particular >>>> de >>>> este ejemplo es que temp(h) (un modelo para la temperatura en función >>>> de >>>> la >>>> hora) es una función no lineal. Igual podrías probar con los GAM. >>>> >>>> Un saludo, >>>> >>>> Carlos J. Gil Bellosta >>>> http://www.datanalytics.com >>>> >>>> >>>> El 28 de marzo de 2016, 16:56, Javier Martínez-López < >>>> javi.martinez.lo...@gmail.com >>>> <mailto:javi.martinez.lo...@gmail.com>> escribió: >>>> >>>> Hola a tod@s, >>>>> queremos hacer una comparación entre dos lugares muy alejados entre sí >>>>> en relación a la temperatura de cada sitio usando medias horarias de >>>>> un período determinado. Sólo hay medidas de un sensor en cada sitio y >>>>> queremos saber si las diferencias son significativas o no entre >>>>> sitios/curvas. Hemos usado un test de Mann–Whitney U con la función >>>>> wilcox.test (paired=F) ya que los valores no son normales (n = 24; 24h >>>>> en base a medias minutales). ¿Creéis que es correcto o estaríamos >>>>> incumpliendo alguna asunción del test al ser datos temporales y/o no >>>>> tener réplicas de los sensores? >>>>> >>>>> Muchas gracias y saludos, >>>>> >>>>> Javier >>>>> >>>>> _______________________________________________ >>>>> R-help-es mailing list >>>>> R-help-es@r-project.org <mailto:R-help-es@r-project.org> >>>>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>>>> >>>> [[alternative HTML version deleted]] >>>> >>>> _______________________________________________ >>>> R-help-es mailing list >>>> R-help-es@r-project.org <mailto:R-help-es@r-project.org> >>>> https://stat.ethz.ch/mailman/listinfo/r-help-es >>>> >> [[alternative HTML version deleted]] >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es@r-project.org <mailto:R-help-es@r-project.org> >> https://stat.ethz.ch/mailman/listinfo/r-help-es > > [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es