Hola. Últimamente ha habido en la lista varios hilos sobre análisis de grandes volúmenes de datos con R. Las alternativas que se han mencionado son: - Usar una máquina más potente, vía Amazon Web Services, por ejemplo - Paralelización con openMp - h2o y su paquete para R, - Paquete sparklyr como wrapper de los algoritmos de spark,
Y por supuesto, utilizar muestreo o incluso si tenemos grandes volúmenes de datos, utilizar varias muestras para ajustar los modelos. A todo esto, se añade ahora la disponibilidad en SparkR de los algoritmos de spark (en la versión 2.1 de spark liberada hace menos de un mes) http://spark.apache.org/docs/latest/sparkr.html#machine-learning Parece que la tendencia es hacia el uso de entornos hadoop y spark. ¿qué opináis al respecto? ¿Es una tendencia pasajera? Saludos [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es