Re: [R-es] Error: protect(): protection stack overflow

2023-05-30 Por tema Javier Marcuzzi
Estimado Manuel Mendoza

Puede ser que a usted no le sea de utilidad, pero cuándo nombran genes y 
evalúan, yo siempre de acuerdo del libro Introducción a la Genética 
Cuantitativa, de Falconer. Digo esto porque la expresión que usted nombra puede 
ser por deriva genética y no por un efecto real del gen.

Un abrazo
Javier Rubén Marcuzzi



> El 29 may. 2023, a las 06:18, Manuel Mendoza  
> escribió:
> 
> Gracias Carlos e Isidro, finalmente utilicé el propio XgBoost para
> seleccionar las variables con las que hacer el RF. Había 47, de las casi
> 55.000, que mostraban una ganancia superior que el resto, así que hice el
> RF con esas sin problema. La idea original era aplicar RF para seleccionar
> las variables más importantes por su contribución a la predicción,
> utilizando meandecraseaccuracy, y es lo que hice, aunque partiendo de esas
> 47. Resultó que con tan solo 5 genes puedo predecir la malignidad de
> tumores (neurofibromas) con una sensibilidad del 98%. Un hallazgo
> interesante.
> Gracias de nuevo,
> Manuel
> 
> El dom, 28 may 2023 a las 21:58, Carlos Ortega ()
> escribió:
> 
>> Hola Manuel,
>> 
>> "ranger" paraleliza de forma automática, usando todos los cores que
>> tienes. Está bastante optimizado...
>> 
>> El que se quede sin memoria, puede tener que ver, tanto por el número de
>> columnas que comentas, como que alguna de tus variables (o varias) si es
>> categórica y tiene múltiples niveles esas 54973 columnas pueden aumentar
>> mucho ("ranger" hace un one-hot interno).
>> 
>> Y si el problema son las columnas. ¿Tienes que usar todas las columnas?.
>> Puedes plantearte alguna alternativa para seleccionar las variables
>> importantes. El paquete "Boruta" es uno de ellos, pero también puedes hacer
>> diferentes modelos en modo "boostrap" seleccionado diferentes columnas para
>> ver con cuáles quedarte al final.
>> 
>> Y otra alternativa cuando tienes problemas de memoria, es usar H2O
>> Gestiona muy bien la memoria.
>> 
>> Gracias,
>> Carlos.
>> 
>> El dom, 28 may 2023 a las 13:29, Manuel Mendoza (<
>> mmend...@fulbrightmail.org>) escribió:
>> 
>>> Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973
>>> columnas y me quedo sin memoria. He probado con randomForest y con ranger,
>>> y con los dos pasa. ¿Tenéis alguna solución para esto (que no sea
>>> comprarse
>>> un ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de 2000
>>> veces  (unas 16 horas), para optimizar los hiperparámetros con una rejilla
>>> de búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay
>>> forma de hacer que randomForest o ranger utilicen más núcleos. Cualquier
>>> otra solución sería buena, claro.
>>> Gracias,
>>> Manuel
>>> 
>>>[[alternative HTML version deleted]]
>>> 
>>> ___
>>> R-help-es mailing list
>>> R-help-es@r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>> 
>> 
>> 
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>> 
> 
>   [[alternative HTML version deleted]]
> 
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Error: protect(): protection stack overflow

2023-05-30 Por tema Juan Abasolo
Qué lindo participar desde la ventana de tu descubrimiento.

Te deseo que tengás un buen camino llevándolo adelante, por el bien de
tantos.

Hau idatzi du Manuel Mendoza (mmend...@fulbrightmail.org) erabiltzaileak
(2023 mai. 29(a), al. (11:19)):

> Gracias Carlos e Isidro, finalmente utilicé el propio XgBoost para
> seleccionar las variables con las que hacer el RF. Había 47, de las casi
> 55.000, que mostraban una ganancia superior que el resto, así que hice el
> RF con esas sin problema. La idea original era aplicar RF para seleccionar
> las variables más importantes por su contribución a la predicción,
> utilizando meandecraseaccuracy, y es lo que hice, aunque partiendo de esas
> 47. Resultó que con tan solo 5 genes puedo predecir la malignidad de
> tumores (neurofibromas) con una sensibilidad del 98%. Un hallazgo
> interesante.
> Gracias de nuevo,
> Manuel
>
> El dom, 28 may 2023 a las 21:58, Carlos Ortega ( >)
> escribió:
>
> > Hola Manuel,
> >
> > "ranger" paraleliza de forma automática, usando todos los cores que
> > tienes. Está bastante optimizado...
> >
> > El que se quede sin memoria, puede tener que ver, tanto por el número de
> > columnas que comentas, como que alguna de tus variables (o varias) si es
> > categórica y tiene múltiples niveles esas 54973 columnas pueden aumentar
> > mucho ("ranger" hace un one-hot interno).
> >
> > Y si el problema son las columnas. ¿Tienes que usar todas las columnas?.
> > Puedes plantearte alguna alternativa para seleccionar las variables
> > importantes. El paquete "Boruta" es uno de ellos, pero también puedes
> hacer
> > diferentes modelos en modo "boostrap" seleccionado diferentes columnas
> para
> > ver con cuáles quedarte al final.
> >
> > Y otra alternativa cuando tienes problemas de memoria, es usar H2O
> > Gestiona muy bien la memoria.
> >
> > Gracias,
> > Carlos.
> >
> > El dom, 28 may 2023 a las 13:29, Manuel Mendoza (<
> > mmend...@fulbrightmail.org>) escribió:
> >
> >> Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973
> >> columnas y me quedo sin memoria. He probado con randomForest y con
> ranger,
> >> y con los dos pasa. ¿Tenéis alguna solución para esto (que no sea
> >> comprarse
> >> un ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de
> 2000
> >> veces  (unas 16 horas), para optimizar los hiperparámetros con una
> rejilla
> >> de búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay
> >> forma de hacer que randomForest o ranger utilicen más núcleos. Cualquier
> >> otra solución sería buena, claro.
> >> Gracias,
> >> Manuel
> >>
> >> [[alternative HTML version deleted]]
> >>
> >> ___
> >> R-help-es mailing list
> >> R-help-es@r-project.org
> >> https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>
> >
> >
> > --
> > Saludos,
> > Carlos Ortega
> > www.qualityexcellence.es
> >
>
> [[alternative HTML version deleted]]
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Juan Abasolo, PhD

Hizkuntzaren eta Literaturaren Didaktika Saila | EUDIA ikerketa taldea
Bilboko Hezkuntza Fakultatea
Euskal Herriko Unibertsitatea UPV/EHU

Sarriena auzoa z/g 48940 - Leioa (Bizkaia)

T   : (+34) 94 601 7567
Telegram: @JuanAbasolo
Skype   : abasolo72
Bloga   : juanabasolo.netlify.com

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Error: protect(): protection stack overflow

2023-05-29 Por tema Manuel Mendoza
Gracias Carlos e Isidro, finalmente utilicé el propio XgBoost para
seleccionar las variables con las que hacer el RF. Había 47, de las casi
55.000, que mostraban una ganancia superior que el resto, así que hice el
RF con esas sin problema. La idea original era aplicar RF para seleccionar
las variables más importantes por su contribución a la predicción,
utilizando meandecraseaccuracy, y es lo que hice, aunque partiendo de esas
47. Resultó que con tan solo 5 genes puedo predecir la malignidad de
tumores (neurofibromas) con una sensibilidad del 98%. Un hallazgo
interesante.
Gracias de nuevo,
Manuel

El dom, 28 may 2023 a las 21:58, Carlos Ortega ()
escribió:

> Hola Manuel,
>
> "ranger" paraleliza de forma automática, usando todos los cores que
> tienes. Está bastante optimizado...
>
> El que se quede sin memoria, puede tener que ver, tanto por el número de
> columnas que comentas, como que alguna de tus variables (o varias) si es
> categórica y tiene múltiples niveles esas 54973 columnas pueden aumentar
> mucho ("ranger" hace un one-hot interno).
>
> Y si el problema son las columnas. ¿Tienes que usar todas las columnas?.
> Puedes plantearte alguna alternativa para seleccionar las variables
> importantes. El paquete "Boruta" es uno de ellos, pero también puedes hacer
> diferentes modelos en modo "boostrap" seleccionado diferentes columnas para
> ver con cuáles quedarte al final.
>
> Y otra alternativa cuando tienes problemas de memoria, es usar H2O
> Gestiona muy bien la memoria.
>
> Gracias,
> Carlos.
>
> El dom, 28 may 2023 a las 13:29, Manuel Mendoza (<
> mmend...@fulbrightmail.org>) escribió:
>
>> Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973
>> columnas y me quedo sin memoria. He probado con randomForest y con ranger,
>> y con los dos pasa. ¿Tenéis alguna solución para esto (que no sea
>> comprarse
>> un ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de 2000
>> veces  (unas 16 horas), para optimizar los hiperparámetros con una rejilla
>> de búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay
>> forma de hacer que randomForest o ranger utilicen más núcleos. Cualquier
>> otra solución sería buena, claro.
>> Gracias,
>> Manuel
>>
>> [[alternative HTML version deleted]]
>>
>> ___
>> R-help-es mailing list
>> R-help-es@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Error: protect(): protection stack overflow

2023-05-28 Por tema Isidro Hidalgo Arellano via R-help-es
Buenos días :
Quizá lo mejor en tu caso es lanzar una regresión penalizada y eliminar algunas 
variables... 
Saludos,

Isidro Hidalgo Arellano
Observatorio del Mercado de Trabajo
Junta de Comunidades de Castilla – La Mancha

-Mensaje original-
De: R-help-es  En nombre de Manuel Mendoza
Enviado el: domingo, 28 de mayo de 2023 13:29
Para: Lista R 
Asunto: [R-es] Error: protect(): protection stack overflow

Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973 
columnas y me quedo sin memoria. He probado con randomForest y con ranger, y 
con los dos pasa. ¿Tenéis alguna solución para esto (que no sea comprarse un 
ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de 2000 veces  
(unas 16 horas), para optimizar los hiperparámetros con una rejilla de 
búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay forma de 
hacer que randomForest o ranger utilicen más núcleos. Cualquier otra solución 
sería buena, claro.
Gracias,
Manuel

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es
___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


[R-es] Error: protect(): protection stack overflow

2023-05-28 Por tema Manuel Mendoza
Muy buenas, estoy aplicando random forest a una df de 256 filas y 54973
columnas y me quedo sin memoria. He probado con randomForest y con ranger,
y con los dos pasa. ¿Tenéis alguna solución para esto (que no sea comprarse
un ordenador más potente:-) ?. Pude aplicar XgBoost, incluso cerca de 2000
veces  (unas 16 horas), para optimizar los hiperparámetros con una rejilla
de búsqueda, pero XgBoost utiliza varios núcleos a la vez. No sé si hay
forma de hacer que randomForest o ranger utilicen más núcleos. Cualquier
otra solución sería buena, claro.
Gracias,
Manuel

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es