[R-es] Irwin hall

2015-05-06 Por tema Genaro Llusco
Comentarles q pude programar la distribucion de Irwin Hall. Muy pronto
subire el algoritmo para compartir con toda la comunidad de r.

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


[R-es] El espíritu de R

2015-05-06 Por tema javier.ruben.marcuzzi
Estimados


Creo que no tenemos que confundirnos entre un R puro o empresas que ofrecen 
mejoras.


El espíritu de R es ser abierto, su código es libre de modificar, hay una parte 
básica y luego las mejoras en forma paquetes, y es tan libre que hay 
superposiciones para lo mismo, código más y menos eficiente, más y menos fácil, 
incluso algunas empresas en lugar de utilizar partes de R base (lapack, blas, 
etc.) prefieren utilizar código optimizado (compilador INTEL, librerías de SUN 
ORACLE, la reciente compra de Microsoft). 


Big Data, es algo tan grande que ni los grandes se ponen de acuerdo en la forma 
eficiente, lógicamente luego de un tiempo muchas alternativas de hoy quedarán 
en los archivos, pensemos en los paquetes ofimáticos, hoy casi hay dos por no 
decir casi uno solo.


Yo tengo una sola cosa bastante clara, muchas empresas grandes se suman o 
agregan a R, entonces R está bien diseñado, con defectos y grandes aciertos, 
pero solo los desarrolladores que usan C/C++, fortran, código fuente, pueden 
tener una visión de como funciona realmente R, sus usos de memoria, 
procesadores, estudiar donde realmente se envían los datos, si hay 
vectorizaciones, etc. Pueden tener una idea sobre que parte es buena para Big 
Data, que parte mejorar, y esas cuestiones que yo leo pero técnicamente no 
podría ni pensar en escribirlo, no me da la cabeza.


Lo mejor de todo es el espíritu abierto de R, si puedes aportar eres libre de 
hacerlo.


Javier Rubén Marcuzzi
[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-06 Por tema Fernando Fernández
Esa sería otra discusión, lo que yo entiendo por "R puro" incluiría todo
aquel paquete que no necesita recursos externos para funcionar (un cluster
spark, hadoop, una bbdd mysql, Oracle, Python...). Cualquier cosa que me
pueda bajar con install.packages y funcione sin hacer nada más,
simplificando mucho... que no me obligue a conocer como funcionan otras
cosas que no son R... Esto es una barrera para muchos principiantes, que en
cuanto ven que tienen que instalar/configurar otra cosa que no sea R para
que algo les funcione se asustan, y dicen cosas como "es que R no me vale
para Big Data, y en SAS esto yo lo hacía..."

El 6 de mayo de 2015, 16:16, Pedro Concejero Cerezo <
pedro.concejerocer...@telefonica.com> escribió:

> Vaya, polémica. ¿R puro es R base?
> Porque van ya por 6618 paquetes en CRAN
> http://cran.r-project.org/web/packages/index.html
> Y nadie sabe bien cuántos hay en github.
> Por cierto, ¿alguno conoce un código para hacer una estimación?
>
> El 06/05/2015 a las 16:09, Freddy Omar López Quintero escribió:
>
> 2015-05-06 11:00 GMT-03:00 Pedro Concejero Cerezo <
> pedro.concejerocer...@telefonica.com pedro.concejerocer...@telefonica.com>>:
> se ha integrado en Apache Spark
>
> ​ Ese es el punto, amigo Pedro. No es R puro. Es R integrado a Apache
> Spark. Pero no sé, quizás entiendo mal el significado de la integración.
>
> Salud. ​
>
> --
> «No soy aquellas sombras tutelares
> que honré con versos que no olvida el tiempo.»
>
> JL Borges
>
>
> --
> Pedro Concejero
> BI & Big Data - Internal Exploitation - Telefónica I+D
> E-mail: pedro.concejerocer...@telefonica.com pedro.concejerocer...@telefonica.com>
> skype: pedro.concejero
> twitter @ConcejeroPedro
> linkedin pedroconcejero
> Entusiasta R, me encontraréis aquí gRupo R madRid  >
>
> 
>
> Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario,
> puede contener información privilegiada o confidencial y es para uso
> exclusivo de la persona o entidad de destino. Si no es usted. el
> destinatario indicado, queda notificado de que la lectura, utilización,
> divulgación y/o copia sin autorización puede estar prohibida en virtud de
> la legislación vigente. Si ha recibido este mensaje por error, le rogamos
> que nos lo comunique inmediatamente por esta misma vía y proceda a su
> destrucción.
>
> The information contained in this transmission is privileged and
> confidential information intended only for the use of the individual or
> entity named above. If the reader of this message is not the intended
> recipient, you are hereby notified that any dissemination, distribution or
> copying of this communication is strictly prohibited. If you have received
> this transmission in error, do not read it. Please immediately reply to the
> sender that you have received this communication in error and then delete
> it.
>
> Esta mensagem e seus anexos se dirigem exclusivamente ao seu destinatário,
> pode conter informação privilegiada ou confidencial e é para uso exclusivo
> da pessoa ou entidade de destino. Se não é vossa senhoria o destinatário
> indicado, fica notificado de que a leitura, utilização, divulgação e/ou
> cópia sem autorização pode estar proibida em virtude da legislação vigente.
> Se recebeu esta mensagem por erro, rogamos-lhe que nos o comunique
> imediatamente por esta mesma via e proceda a sua destruição
>
> [[alternative HTML version deleted]]
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-06 Por tema Pedro Concejero Cerezo
Vaya, polémica. ¿R puro es R base?
Porque van ya por 6618 paquetes en CRAN
http://cran.r-project.org/web/packages/index.html
Y nadie sabe bien cuántos hay en github.
Por cierto, ¿alguno conoce un código para hacer una estimación?

El 06/05/2015 a las 16:09, Freddy Omar López Quintero escribió:

2015-05-06 11:00 GMT-03:00 Pedro Concejero Cerezo 
mailto:pedro.concejerocer...@telefonica.com>>:
se ha integrado en Apache Spark

​ Ese es el punto, amigo Pedro. No es R puro. Es R integrado a Apache Spark. 
Pero no sé, quizás entiendo mal el significado de la integración.

Salud. ​

--
«No soy aquellas sombras tutelares
que honré con versos que no olvida el tiempo.»

JL Borges


--
Pedro Concejero
BI & Big Data - Internal Exploitation - Telefónica I+D
E-mail: 
pedro.concejerocer...@telefonica.com
skype: pedro.concejero
twitter @ConcejeroPedro
linkedin pedroconcejero
Entusiasta R, me encontraréis aquí gRupo R madRid 



Este mensaje y sus adjuntos se dirigen exclusivamente a su destinatario, puede 
contener información privilegiada o confidencial y es para uso exclusivo de la 
persona o entidad de destino. Si no es usted. el destinatario indicado, queda 
notificado de que la lectura, utilización, divulgación y/o copia sin 
autorización puede estar prohibida en virtud de la legislación vigente. Si ha 
recibido este mensaje por error, le rogamos que nos lo comunique inmediatamente 
por esta misma vía y proceda a su destrucción.

The information contained in this transmission is privileged and confidential 
information intended only for the use of the individual or entity named above. 
If the reader of this message is not the intended recipient, you are hereby 
notified that any dissemination, distribution or copying of this communication 
is strictly prohibited. If you have received this transmission in error, do not 
read it. Please immediately reply to the sender that you have received this 
communication in error and then delete it.

Esta mensagem e seus anexos se dirigem exclusivamente ao seu destinatário, pode 
conter informação privilegiada ou confidencial e é para uso exclusivo da pessoa 
ou entidade de destino. Se não é vossa senhoria o destinatário indicado, fica 
notificado de que a leitura, utilização, divulgação e/ou cópia sem autorização 
pode estar proibida em virtude da legislação vigente. Se recebeu esta mensagem 
por erro, rogamos-lhe que nos o comunique imediatamente por esta mesma via e 
proceda a sua destruição

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-06 Por tema Freddy Omar López Quintero
2015-05-06 11:00 GMT-03:00 Pedro Concejero Cerezo <
pedro.concejerocer...@telefonica.com>:

> se ha integrado en Apache Spark


​Ese es el punto, amigo Pedro. No es R puro. Es R integrado a Apache Spark.
Pero no sé, quizás entiendo mal el significado de la integración.

Salud.​

-- 
«No soy aquellas sombras tutelares
que honré con versos que no olvida el tiempo.»

JL Borges

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Resumen de R-help-es, Vol 75, Envío 7

2015-05-06 Por tema Pedro Concejero Cerezo
Hola, me sorprende leer tu opini�n ("R (puro) no es la herramienta ideal para 
el manejo directo del 'big data'") cuando precisamente este pasado mes de abril 
SparkR (ver descripci�n de su web m�s abajo) se ha integrado en Apache Spark y 
todo el mundo que est� en "ese ajo" del "big data" (buzzword donde las haya) no 
le quita ojo a la publicaci�n oficial este verano.

https://amplab-extras.github.io/SparkR-pkg/
SparkR is an R package that provides a light-weight frontend to use Apache 
Spark from R. SparkR exposes the Spark API through the RDD class and allows 
users to interactively run jobs from the R shell on a cluster.
NOTE: As of April 2015, SparkR has been officially merged into Apache Spark and 
is shipping in an upcoming release (1.4) due early summer 2015.

(lo poqu�simo que s� de SparkR es que ya quien se tiene que pegar con 
map-reduce no usa otra cosa; sobre todo junto con python).

Salud
Pedro

El 06/05/2015 a las 15:49, 
r-help-es-requ...@r-project.org 
escribi�:

Env�e los mensajes para la lista R-help-es a
r-help-es@r-project.org

Para subscribirse o anular su subscripci�n a trav�s de la WEB
https://stat.ethz.ch/mailman/listinfo/r-help-es

O por correo electr�nico, enviando un mensaje con el texto "help" en
el asunto (subject) o en el cuerpo a:
r-help-es-requ...@r-project.org

Puede contactar con el responsable de la lista escribiendo a:
r-help-es-ow...@r-project.org

Si responde a alg�n contenido de este mensaje, por favor, edite la
linea del asunto (subject) para que el texto sea mas especifico que:
"Re: Contents of R-help-es digest...". Adem�s, por favor, incluya en
la respuesta s�lo aquellas partes del mensaje a las que est�
respondiendo.


Asuntos del d�a:

   1. Re: Muestreo de bases de datos (Freddy Omar L�pez Quintero)


--

Message: 1
Date: Wed, 6 May 2015 10:48:49 -0300
From: Freddy Omar L�pez Quintero 

To: Patricio Fuenmayor Viteri 
,

fernando.fernandez.gonza...@gmail.com,
 jluis.gils...@tasacionesh.com,
Javier Marcuzzi 
,  
Carlos Javier Gil
Bellosta 
Cc: r-help-es 
Subject: Re: [R-es] Muestreo de bases de datos
Message-ID:


Content-Type: text/plain; charset="UTF-8"

Gracias a todos por sus respuestas. Han enriquecido mi punto de vista.

Cuando deba, entonces garantizar� la representatividad de los individuos
ocupando los �ndices o hashes en la base de datos (el problema se traslada
ahora a hallar esa representatividad).

Personalmente pienso que R (puro) no es la herramienta ideal para el manejo
directo del 'big data' aunque algunos cuenten con los ordenadores con
capacidades que les permitan hacerlo directamente.

De todas formas, ya las ofertas de R integrado en base de datos est�n a la
orden del d�a (esta es la �ltima que supe:
http://www.oracle.com/technetwork/database/database-technologies/r/r-distribution/overview/index.html
).

Saludos a todos.

2015-05-05 13:11 GMT-03:00 Patricio Fuenmayor Viteri <
patricio.fuenma...@outlook.com>:




Bueno ... voy a compartirles mi experiencia en esto.
Freddy, yo tuve la misma experiencia que su amigo, es mas, aun la sigo
teniendo... y en resumen y sin alargar el cuento ... me quedo con R.
Porque mi decisi�n... por varios temas:
1. Rapidez. Uno debe saber que es lo que se quiere hacer y que necesita
para eso. El uso adecuado de indices, hash, etc. que permitan y faciliten
al sistema trabajar eficientemente. R en mas r�pido que SAS en temas de
cruces de datos (yo uso data.table e indexaciones por hash).
2. Generalizado, centralizado y normalizado. El uso del concepto de
funciones con par�metros, y un solo esquema de lenguaje y la programaci�n
orientada a objetos, hace que se faciliten los temas. Programar los
procesos usando un flujo y reutilizando las funciones, permiten que a mas
de que el proceso sea escalable, su mantenimiento y la incorporaci�n de
nuevas funcionalidades, se implemente f�cilmente.
3. SAS facilita la conexi�n con diferentes bases de datos (siempre y
cuando se tenga licenciado el m�dulo). Es recomendable usar librer�as en R
que est�n programadas utilizando conectores nativos, tales como RMySQL,
RPostgres, y la nueva que estoy usando rsqlserver (en desarrollo en
github), las cuales son muy r�pidas en tiempos de respuesta.
4. Programaci�n modular e incorporaci�n de conceptos y tecnolog�as. Esto,
en mi caso, lo desarroll� por experiencia. Poder generalizar un proceso de
i

Re: [R-es] Muestreo de bases de datos

2015-05-06 Por tema Freddy Omar López Quintero
Gracias a todos por sus respuestas. Han enriquecido mi punto de vista.

Cuando deba, entonces garantizaré la representatividad de los individuos
ocupando los índices o hashes en la base de datos (el problema se traslada
ahora a hallar esa representatividad).

Personalmente pienso que R (puro) no es la herramienta ideal para el manejo
directo del 'big data' aunque algunos cuenten con los ordenadores con
capacidades que les permitan hacerlo directamente.

De todas formas, ya las ofertas de R integrado en base de datos están a la
orden del día (esta es la última que supe:
http://www.oracle.com/technetwork/database/database-technologies/r/r-distribution/overview/index.html
).

Saludos a todos.

2015-05-05 13:11 GMT-03:00 Patricio Fuenmayor Viteri <
patricio.fuenma...@outlook.com>:

>
> Bueno ... voy a compartirles mi experiencia en esto.
> Freddy, yo tuve la misma experiencia que su amigo, es mas, aun la sigo
> teniendo... y en resumen y sin alargar el cuento ... me quedo con R.
> Porque mi decisión... por varios temas:
> 1. Rapidez. Uno debe saber que es lo que se quiere hacer y que necesita
> para eso. El uso adecuado de indices, hash, etc. que permitan y faciliten
> al sistema trabajar eficientemente. R en mas rápido que SAS en temas de
> cruces de datos (yo uso data.table e indexaciones por hash).
> 2. Generalizado, centralizado y normalizado. El uso del concepto de
> funciones con parámetros, y un solo esquema de lenguaje y la programación
> orientada a objetos, hace que se faciliten los temas. Programar los
> procesos usando un flujo y reutilizando las funciones, permiten que a mas
> de que el proceso sea escalable, su mantenimiento y la incorporación de
> nuevas funcionalidades, se implemente fácilmente.
> 3. SAS facilita la conexión con diferentes bases de datos (siempre y
> cuando se tenga licenciado el módulo). Es recomendable usar librerías en R
> que estén programadas utilizando conectores nativos, tales como RMySQL,
> RPostgres, y la nueva que estoy usando rsqlserver (en desarrollo en
> github), las cuales son muy rápidas en tiempos de respuesta.
> 4. Programación modular e incorporación de conceptos y tecnologías. Esto,
> en mi caso, lo desarrollé por experiencia. Poder generalizar un proceso de
> información, manejar un modelos de datos, para optimizar el almacenaje de
> los datos y de los resultados, hacen que los tiempo de respuesta hacia el
> usuario sean cada vez mejores.
> 5. Toda la gama de funciones desarrolladas por la comunidad, y los
> estudios y análisis compartidos en blogs, libros, etc. permiten que la
> curva de aprendizaje y de desarrollo sea mas corta, ademas uno puede
> evidenciar y aprender de gente mas experimentada en temas de manejo de
> información y de aplicaciones estadísticas.
> Bueno... esto es parte de mi experiencia... y no quiero cansarles mas ...
> un abrazo ... !!!
>
>
>
>
> --Archivo adjunto de mensaje reenviado--
> From: jluis.gils...@tasacionesh.com
> To: r-help-es@r-project.org
> Date: Tue, 5 May 2015 11:12:49 +
>
> Subject: Re: [R-es] Muestreo de bases de datos
>
> Hola
>
> Desviándome un poco de la cuestión que plantea Freddy, no estoy muy de 
> acuerdo con lo que comenta acerca de que  "... R no está diseñado 
> (operaciones en la base de datos)..".
>
> Precisamente la mayor parte de mi trabajo en R se realiza vinculadolo a un 
> servidor Microsoft SQL Server y lo cierto es que, hasta ahora, "se entienden" 
> muy bien entre ellos.
> Cierto es que, en mi caso, la mayor parte del flujo de datos (con millones de 
> registros como norma general) va de R hacia el SQL, puesto que utilizo R para 
> descargar los datos, organizarlos  y depurarlos antes de subirlos al SQL 
> server.
>  Al principio me inquietaba mucho el tiempo (horas en algún caso) en el que 
> la consola de R se mostraba "pensando" hasta que se subían todos los datos al 
> SQL Server, así que  diseñe una función que usando el paquete  snowfall 
> mostraba una barra de progreso mientras se hacia la subida de datos.
>
> Para el flujo de datos en sentido inverso, (de SQL Server a R) siempre me 
> aseguro de que la consulta SQL que "baja" los datos del SQL  Server a un 
> dataframe o similar solo recupera los datos verdaderamente necesarios. 
> Lógicamente y dependiendo de lo que vayas a hacer luego con esos datos a 
> veces esto no es posible, pero en general eso de "bajarse todo" e intentar 
> ejecutar un proceso me parece un hábito bastante pernicioso e improductivo.
>
>
>
>
>
>
> > -Mensaje original-
> > De: R-help-es [mailto:r-help-es-boun...@r-project.org] En nombre de r-
> > help-es-requ...@r-project.org
> > Enviado el: martes, 05 de mayo de 2015 12:00
> > Para: r-help-es@r-project.org
> > Asunto: Resumen de R-help-es, Vol 75, Envío 4
> >
> > Envíe los mensajes para la lista R-help-es a
> >   r-help-es@r-project.org
> >
> > Para subscribirse o anular su subscripción a través de la WEB
> >   https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
> > O por correo electrónico, envi