Estimados
Yo vengo del lado de la biología, no de las matemáticas, hace algunos años yo
era ayudante en la cátedra de genética y mi profesor me enseñaba fortran (el
tenía SAS), recuerdo que para tener un compilador me compre una pc Pentium III
con una cantidad extraordinaria de ram (256 megas), a la cuál le instale open
suse. Dentro de este encontré Python, fortran, R, etc.
En ese momento no comprendía mucho el porqué tener que escribir en fortran 77,
y por mi cuenta jugaba con Python y R. Nadie usaba R en la universidad, incluso
una investigación no me dejaron publicarla porque R no era conocido.
Pero aprendí algo, R tiene cosas en c, c++, fortran, las cosas complejas están
escritas en forma optimizada, y lo que leía en aquella época era un artículo
que decía que Python mataría a fortran (incluso Sun estaba realizando un nuevo
lenguaje).
Lo importante es tener la herramienta que realice lo necesario, sin errores y a
una velocidad adecuada.
El año pasado asistí a una conferencia de Big Data, el que dictaba dicho evento
es profesor universitario, consultor, etc., pero en el servidor usaba noje.js,
eran celeron, como de 4 GB de ram. Realizaba map reduce y etc. Pero si hoy
(teniendo el dinero) se puede comprar una computadora con Xenon y 32, 64
procesadores (ni se cuanto), ram en una cantidad abismal, R server puede ser
descargado gratis, comprado, o compilado.
En otras palabras, lo que hace unos años si o si requería map reduce, hoy puede
ser trabajado por una computadora, lógicamente, datos grande computadora
grande, quedando el Big Data para centros realmente grandes, el resto de los
mortales teniendo una computadora con capacidad industrial no tendría los
requerimientos para map reduce, entendiendo a este último para trabajar en
nodos informáticos, porque una sola computadora xenón alanza en la mayoría de
los casos.
Cuándo uno tiene muchos datos no piensa en realizar un promedio, sino en una
técnica de análisis más elaborada, y en ese caso las herramientas se reducen, y
la eficiencia de un lenguaje está de la mano de la compilación, en procesos en
paralelo, en si el compilador si este utiliza vectores.
¿Hay un algoritmo para el análisis que deseo?, luego ¿costo de licencia?,
¿costo informático en proceso y dinero? Con respuestas a esas preguntas recién
salir a comprar hardware y software.
Es verdad, Python tiene personas que lo “quieren y mucho”, charlando con un
conocido que está realizando la tesis con este lenguaje me decía “la
optimización viene después”, lógicamente, en un ambiente académico obtendrá su
tesis con Python, pero en un ambiente laboral ¿usará Python o solo sus
conocimiento y otro lenguaje?
Yo estoy estudiando algo algunos frameworks en C#, tienen redes neuronales,
regresiones, etc. El escribirlo es muy parecido, siempre que se sepa que se
está realizando, pero hay una diferencia, se compila. Y por otro lado la otra
diferencia al trabajar en asincrónico, es llevar un orden en los hilos o
procesadores, etc.
El centro CERN (creo que se llama así el e física europeo), tiene disponible un
framework en c++ para trabajar con muchos datos.
Yo pienso que lo popular no siempre es lo adecuado, por ejemplo, para que
complicarse mucho para pilotear un planeador, pero manejar una nave espacial
solo es cosa de astronautas, estos son muy pocos, tienen sus requerimientos
específicos, sin embargo en informática las empresas o publicaciones nos dicen
cosas de rendimiento, escalabilidad, y parámetros técnicos que posiblemente el
que escribe el artículo que leemos nunca usó ni usará esas características
especiales, porque él solo sabe pilotear una avioneta y como es amigo del
astronauta dice algo que este le comentó.
Por otro lado, Microsoft en azure ofrece R y Python, por lo que yo pienso que
ambos pueden ganar en popularidad y tienen respaldo en caso de necesitarlo.
Lógicamente, algo no menos importante, es tener un editor que nos ayude a
escribir código.
Big Data vende, es la palabra clave, a mi me paso en una ronda de negocios con
una fundación internacional, en la charla el gerente de una institución les
dijo “el hace big data”, se interesaron más por eso que por lo que estábamos
negociando (previo acuerdo, incluso nos ampliaron los minutos a dos turnos (la
ronda eran 20 min con cada empresa, nos pasaron a 40, si faltaba la empresa que
continuaba nos daban otro turno)).
Yo me respondería ¿Qué análisis específico hay que realizar?, ¿Qué herramientas
hay en R y Python?, ¿Comprendo el código?, creo que en ambos casos se puede
descargar y probar, si no hay grandes diferencias en rendimiento, es mucho a
gusto personal.
Javier Rubén Marcuzzi
De: Carlos Ortega
Enviado: domingo, 15 de enero de 2017 16:11
Para: Jesús Para Fernández
CC: r-help-es@r-project.org
Asunto: Re: [R-es] ¿Está R perdiendo la batalla?
Hola,
Es que también habría que definir a que etapa del proceso de BigData te estás
refiriendo.
Supongo que te refieres a la etapa