Estimado Javier Villacampa González

Vi una referencia en http://www.r-bloggers.com/?s=hadoop aunque no use esa 
tecnología como para opinar.

Hay una parte que me da dudas, por ejemplo, sql server 2016 tiene R y hadoop, 
en la instalación pregunta por ambos, pero hadoop entiendo que “administra” los 
archivos para nunca quedar sin espacio (utiliza muchos discos y servidores), 
sin embargo R si no está en paralelo y pensado para procesar en cluster (no la 
versión libre, creo) no se beneficiaría con esta tecnología, salvo que las 
librerías y R tengan una escritura que permita el proceso en varios hilos, 
procesadores, computadoras, etc.

En cambio la versión de R de Microsoft que está pensada para utilizar más 
procesadores, podría utilizar esta tecnología (salvo que uno compile su propia 
versión). Sin embargo la librería “X”, ¿procesa con múltiples procesadores?.

Hay partes que no tengo dudas que pueden procesar, otras que si no están 
escritas y compiladas par utilizar varios procesadores en forma asincrónica, y 
con el orden lógico, podrían dar problemas sin un mensaje de error, puesto que 
nunca fueron preparadas para eso, escribiré un ejemplo.

Pido el promedio, los datos son partidos en tres, cada uno realiza el promedio, 
luego junta los tres y termina el cálculo (lo que dicen map reduce).
Todos / 3 = A + B + C
Promedio A en computadora A.
Promedio B en computadora B.
Promedio C en computadora C.
Sumo promedio A + B + C / 3 = final

Supongamos que todo es correcto.

Pero si hay una resta o división, y estas tienen que ser en orden A, B, C, pero 
la computadora C termina antes que la B, el orden cambia a  A, C, B. 

En este último caso si código fuente no está preparado para un cálculo entre 
distintos procesadores en forma asincrónica, se confunde, el resultado se 
procesa sin error matemático, pero tiene un error de lógica que hace un error 
de resultado. 

No se si explico correctamente mi duda.


Javier Rubén Marcuzzi

De: Javier Villacampa González
Enviado: miércoles, 15 de junio de 2016 6:12
Para: R ayuda
Asunto: [R-es] Hadoop

Hola buenas,

me preguntaba si alguno usa hadoop Spark en su día día y si me podíais
recomendar un buen curso para empezar. Estuve en la charla de meetup de
madrid hace unos meses de Rspark y estuvo bien, ahora me preguntaba si es
posible profundizar.

Pero me gustaría tener recomendaciones de cualquier material que podáis
recomendar, cursos de coursera que hayais hecho, libros que hayais leido,
charlas de youtube que hayais visto. Los objetivo son:

   1. que sea simple,  un poco para tontitos y si puede ser que usen R por
   no meterme con una cosa más.
   2. que lo hayáis mirado, la red esta llena de cosas de estas me gustaría
   que me dieses opinión. Estoy intentando hacer alguno a ciegas pero no es la
   mejor opción
   3. que sea simple y con R


Gracias por adelantado.

--

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Reply via email to