Re: [R-es] Random Forest con poca "n" y muchos predictores

Rubén Fernández Casal Mon, 17 Dec 2018 05:40:45 -0800

Hola Gemma,

En principio con el random forest no tendrías mucho problema. En general
con pocos datos los métodos de aprendizaje estadístico / automático que
requieren de una muestra de aprendizaje y otra de validación podrían tener
problemas. En estos casos sería recomendable hacer bagging, remuestreo del
conjunto de datos de entrenamiento, y eso ya es lo que hacen los algoritmos
estándar de RF como el implementado en randomForest...


Un saludo, Rubén.


El jue., 13 de diciembre de 2018 10:01, Gemma Ruiz-Olalla <
gemma.ruizola...@gmail.com> escribió:

> Hola,
>
> Me he iniciado hace poco en Machine Learning, y tengo una duda sobre mis
> conjuntos de datos: el primero tiene 37 variables explicativas y 116
> instancias, y el segundo, 140 variables explicativas y 195 instancias. El
> primero lo veo bien, ya que hay 3 veces más casos que variables
> explicativas, pero creo que el segundo caso puede suponer un problema al
> haber casi el mismo número de predictores que de casos, verdad?
>
> Para "arreglar" esto (en un Random Forest), tendría sentido hacer iterar el
> train() unas 50-100 veces? Ir guardando estos modelos
> resultantes (entrenados) en una lista, para luego hacer una especie de
> promedio con ellos, y éste resultante (sus parámetros ntree y mtry) usarlo
> para generar el modelo randomForest() definitivo.
>
> Tiene sentido, o qué podría hacer si no?
>
> Muchas gracias!
>
> --
> Gemma Ruiz-Olalla
> gemma.ruizola...@gmail.com
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] Random Forest con poca "n" y muchos predictores

Responder a