Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-06 Thread Pedro Concejero Cerezo
Hola, me sorprende leer tu opini�n ("R (puro) no es la herramienta ideal para 
el manejo directo del 'big data'") cuando precisamente este pasado mes de abril 
SparkR (ver descripci�n de su web m�s abajo) se ha integrado en Apache Spark y 
todo el mundo que est� en "ese ajo" del "big data" (buzzword donde las haya) no 
le quita ojo a la publicaci�n oficial este verano.

https://amplab-extras.github.io/SparkR-pkg/
SparkR is an R package that provides a light-weight frontend to use Apache 
Spark from R. SparkR exposes the Spark API through the RDD class and allows 
users to interactively run jobs from the R shell on a cluster.
NOTE: As of April 2015, SparkR has been officially merged into Apache Spark and 
is shipping in an upcoming release (1.4) due early summer 2015.

(lo poqu�simo que s� de SparkR es que ya quien se tiene que pegar con 
map-reduce no usa otra cosa; sobre todo junto con python).

Salud
Pedro

El 06/05/2015 a las 15:49, 
r-help-es-requ...@r-project.org 
escribi�:

Env�e los mensajes para la lista R-help-es a
r-help-es@r-project.org

Para subscribirse o anular su subscripci�n a trav�s de la WEB
https://stat.ethz.ch/mailman/listinfo/r-help-es

O por correo electr�nico, enviando un mensaje con el texto "help" en
el asunto (subject) o en el cuerpo a:
r-help-es-requ...@r-project.org

Puede contactar con el responsable de la lista escribiendo a:
r-help-es-ow...@r-project.org

Si responde a alg�n contenido de este mensaje, por favor, edite la
linea del asunto (subject) para que el texto sea mas especifico que:
"Re: Contents of R-help-es digest...". Adem�s, por favor, incluya en
la respuesta s�lo aquellas partes del mensaje a las que est�
respondiendo.


Asuntos del d�a:

   1. Re: Muestreo de bases de datos (Freddy Omar L�pez Quintero)


--

Message: 1
Date: Wed, 6 May 2015 10:48:49 -0300
From: Freddy Omar L�pez Quintero 

To: Patricio Fuenmayor Viteri 
,

fernando.fernandez.gonza...@gmail.com,
 jluis.gils...@tasacionesh.com,
Javier Marcuzzi 
,  
Carlos Javier Gil
Bellosta 
Cc: r-help-es 
Subject: Re: [R-es] Muestreo de bases de datos
Message-ID:


Content-Type: text/plain; charset="UTF-8"

Gracias a todos por sus respuestas. Han enriquecido mi punto de vista.

Cuando deba, entonces garantizar� la representatividad de los individuos
ocupando los �ndices o hashes en la base de datos (el problema se traslada
ahora a hallar esa representatividad).

Personalmente pienso que R (puro) no es la herramienta ideal para el manejo
directo del 'big data' aunque algunos cuenten con los ordenadores con
capacidades que les permitan hacerlo directamente.

De todas formas, ya las ofertas de R integrado en base de datos est�n a la
orden del d�a (esta es la �ltima que supe:
http://www.oracle.com/technetwork/database/database-technologies/r/r-distribution/overview/index.html
).

Saludos a todos.

2015-05-05 13:11 GMT-03:00 Patricio Fuenmayor Viteri <
patricio.fuenma...@outlook.com>:




Bueno ... voy a compartirles mi experiencia en esto.
Freddy, yo tuve la misma experiencia que su amigo, es mas, aun la sigo
teniendo... y en resumen y sin alargar el cuento ... me quedo con R.
Porque mi decisi�n... por varios temas:
1. Rapidez. Uno debe saber que es lo que se quiere hacer y que necesita
para eso. El uso adecuado de indices, hash, etc. que permitan y faciliten
al sistema trabajar eficientemente. R en mas r�pido que SAS en temas de
cruces de datos (yo uso data.table e indexaciones por hash).
2. Generalizado, centralizado y normalizado. El uso del concepto de
funciones con par�metros, y un solo esquema de lenguaje y la programaci�n
orientada a objetos, hace que se faciliten los temas. Programar los
procesos usando un flujo y reutilizando las funciones, permiten que a mas
de que el proceso sea escalable, su mantenimiento y la incorporaci�n de
nuevas funcionalidades, se implemente f�cilmente.
3. SAS facilita la conexi�n con diferentes bases de datos (siempre y
cuando se tenga licenciado el m�dulo). Es recomendable usar librer�as en R
que est�n programadas utilizando conectores nativos, tales como RMySQL,
RPostgres, y la nueva que estoy usando rsqlserver (en desarrollo en
github), las cuales son muy r�pidas en tiempos de respuesta.
4. Programaci�n modular e incorporaci�n de conceptos y tecnolog�as. Esto,
en mi caso, lo desarroll� por experiencia. Poder generalizar un proceso de
i

Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-06 Thread Freddy Omar López Quintero
2015-05-06 11:00 GMT-03:00 Pedro Concejero Cerezo <
pedro.concejerocer...@telefonica.com>:

> se ha integrado en Apache Spark


​Ese es el punto, amigo Pedro. No es R puro. Es R integrado a Apache Spark.
Pero no sé, quizás entiendo mal el significado de la integración.

Salud.​

-- 
«No soy aquellas sombras tutelares
que honré con versos que no olvida el tiempo.»

JL Borges

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-06 Thread Pedro Concejero Cerezo
Vaya, polémica. ¿R puro es R base?
Porque van ya por 6618 paquetes en CRAN
http://cran.r-project.org/web/packages/index.html
Y nadie sabe bien cuántos hay en github.
Por cierto, ¿alguno conoce un código para hacer una estimación?

El 06/05/2015 a las 16:09, Freddy Omar López Quintero escribió:

2015-05-06 11:00 GMT-03:00 Pedro Concejero Cerezo 
mailto:pedro.concejerocer...@telefonica.com>>:
se ha integrado en Apache Spark

​ Ese es el punto, amigo Pedro. No es R puro. Es R integrado a Apache Spark. 
Pero no sé, quizás entiendo mal el significado de la integración.

Salud. ​

--
«No soy aquellas sombras tutelares
que honré con versos que no olvida el tiempo.»

JL Borges


--
Pedro Concejero
BI & Big Data - Internal Exploitation - Telefónica I+D
E-mail: 
pedro.concejerocer...@telefonica.com
skype: pedro.concejero
twitter @ConcejeroPedro
linkedin pedroconcejero
Entusiasta R, me encontraréis aquí gRupo R madRid 



Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario, puede 
contener información privilegiada o confidencial y es para uso exclusivo de la 
persona o entidad de destino. Si no es usted. el destinatario indicado, queda 
notificado de que la lectura, utilización, divulgación y/o copia sin 
autorización puede estar prohibida en virtud de la legislación vigente. Si ha 
recibido este mensaje por error, le rogamos que nos lo comunique inmediatamente 
por esta misma vía y proceda a su destrucción.

The information contained in this transmission is privileged and confidential 
information intended only for the use of the individual or entity named above. 
If the reader of this message is not the intended recipient, you are hereby 
notified that any dissemination, distribution or copying of this communication 
is strictly prohibited. If you have received this transmission in error, do not 
read it. Please immediately reply to the sender that you have received this 
communication in error and then delete it.

Esta mensagem e seus anexos se dirigem exclusivamente ao seu destinatário, pode 
conter informação privilegiada ou confidencial e é para uso exclusivo da pessoa 
ou entidade de destino. Se não é vossa senhoria o destinatário indicado, fica 
notificado de que a leitura, utilização, divulgação e/ou cópia sem autorização 
pode estar proibida em virtude da legislação vigente. Se recebeu esta mensagem 
por erro, rogamos-lhe que nos o comunique imediatamente por esta mesma via e 
proceda a sua destruição

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-06 Thread Fernando Fernández
Esa sería otra discusión, lo que yo entiendo por "R puro" incluiría todo
aquel paquete que no necesita recursos externos para funcionar (un cluster
spark, hadoop, una bbdd mysql, Oracle, Python...). Cualquier cosa que me
pueda bajar con install.packages y funcione sin hacer nada más,
simplificando mucho... que no me obligue a conocer como funcionan otras
cosas que no son R... Esto es una barrera para muchos principiantes, que en
cuanto ven que tienen que instalar/configurar otra cosa que no sea R para
que algo les funcione se asustan, y dicen cosas como "es que R no me vale
para Big Data, y en SAS esto yo lo hacía..."

El 6 de mayo de 2015, 16:16, Pedro Concejero Cerezo <
pedro.concejerocer...@telefonica.com> escribió:

> Vaya, polémica. ¿R puro es R base?
> Porque van ya por 6618 paquetes en CRAN
> http://cran.r-project.org/web/packages/index.html
> Y nadie sabe bien cuántos hay en github.
> Por cierto, ¿alguno conoce un código para hacer una estimación?
>
> El 06/05/2015 a las 16:09, Freddy Omar López Quintero escribió:
>
> 2015-05-06 11:00 GMT-03:00 Pedro Concejero Cerezo <
> pedro.concejerocer...@telefonica.com pedro.concejerocer...@telefonica.com>>:
> se ha integrado en Apache Spark
>
> ​ Ese es el punto, amigo Pedro. No es R puro. Es R integrado a Apache
> Spark. Pero no sé, quizás entiendo mal el significado de la integración.
>
> Salud. ​
>
> --
> «No soy aquellas sombras tutelares
> que honré con versos que no olvida el tiempo.»
>
> JL Borges
>
>
> --
> Pedro Concejero
> BI & Big Data - Internal Exploitation - Telefónica I+D
> E-mail: pedro.concejerocer...@telefonica.com pedro.concejerocer...@telefonica.com>
> skype: pedro.concejero
> twitter @ConcejeroPedro
> linkedin pedroconcejero
> Entusiasta R, me encontraréis aquí gRupo R madRid  >
>
> 
>
> Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario,
> puede contener información privilegiada o confidencial y es para uso
> exclusivo de la persona o entidad de destino. Si no es usted. el
> destinatario indicado, queda notificado de que la lectura, utilización,
> divulgación y/o copia sin autorización puede estar prohibida en virtud de
> la legislación vigente. Si ha recibido este mensaje por error, le rogamos
> que nos lo comunique inmediatamente por esta misma vía y proceda a su
> destrucción.
>
> The information contained in this transmission is privileged and
> confidential information intended only for the use of the individual or
> entity named above. If the reader of this message is not the intended
> recipient, you are hereby notified that any dissemination, distribution or
> copying of this communication is strictly prohibited. If you have received
> this transmission in error, do not read it. Please immediately reply to the
> sender that you have received this communication in error and then delete
> it.
>
> Esta mensagem e seus anexos se dirigem exclusivamente ao seu destinatário,
> pode conter informação privilegiada ou confidencial e é para uso exclusivo
> da pessoa ou entidade de destino. Se não é vossa senhoria o destinatário
> indicado, fica notificado de que a leitura, utilização, divulgação e/ou
> cópia sem autorização pode estar proibida em virtude da legislação vigente.
> Se recebeu esta mensagem por erro, rogamos-lhe que nos o comunique
> imediatamente por esta mesma via e proceda a sua destruição
>
> [[alternative HTML version deleted]]
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-07 Thread Francisco Rodriguez Sanchez

Hola Pedro,

Rdocumentation recoge ya 7393 paquetes entre CRAN, Bioconductor y 
GitHub: http://www.rdocumentation.org/. De GitHub hay 260, pero sólo 
incluyen repos con 3 o más estrellas (o sea que hay muchos más).
Hadley Wickham escribió código para estimar el número de repos de R en 
GitHub, pero no sé si ha quedado obsoleto (tiene 2 años): 
https://github.com/hadley/r-on-github. Lo que está claro es que el 
número de repositorios de R en GitHub crece a velocidad de vértigo...


Saludos

Paco

El 06/05/2015 a las 16:16, Pedro Concejero Cerezo escribió:

Y nadie sabe bien cuántos hay en github.
Por cierto, ¿alguno conoce un código para hacer una estimación?


--
Dr Francisco Rodriguez-Sanchez
Integrative Ecology Group
Estacion Biologica de Doñana - CSIC
Avda. Americo Vespucio s/n
41092 Sevilla (Spain)
http://bit.ly/frod_san

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-07 Thread Carlos Ortega
El detalle sobre la actividad de R en GitHub...:

http://blog.revolutionanalytics.com/2015/02/r-among-top-languages-on-github.html
http://githut.info/

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 7 de mayo de 2015, 21:40, Francisco Rodriguez Sanchez <
f.rodriguez.s...@gmail.com> escribió:

> Hola Pedro,
>
> Rdocumentation recoge ya 7393 paquetes entre CRAN, Bioconductor y GitHub:
> http://www.rdocumentation.org/. De GitHub hay 260, pero sólo incluyen
> repos con 3 o más estrellas (o sea que hay muchos más).
> Hadley Wickham escribió código para estimar el número de repos de R en
> GitHub, pero no sé si ha quedado obsoleto (tiene 2 años):
> https://github.com/hadley/r-on-github. Lo que está claro es que el número
> de repositorios de R en GitHub crece a velocidad de vértigo...
>
> Saludos
>
> Paco
>
> El 06/05/2015 a las 16:16, Pedro Concejero Cerezo escribió:
>
>> Y nadie sabe bien cuántos hay en github.
>> Por cierto, ¿alguno conoce un código para hacer una estimación?
>>
>
> --
> Dr Francisco Rodriguez-Sanchez
> Integrative Ecology Group
> Estacion Biologica de Doñana - CSIC
> Avda. Americo Vespucio s/n
> 41092 Sevilla (Spain)
> http://bit.ly/frod_san
>
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es