Hola Gemma, En principio con el random forest no tendrías mucho problema. En general con pocos datos los métodos de aprendizaje estadístico / automático que requieren de una muestra de aprendizaje y otra de validación podrían tener problemas. En estos casos sería recomendable hacer bagging, remuestreo del conjunto de datos de entrenamiento, y eso ya es lo que hacen los algoritmos estándar de RF como el implementado en randomForest...
Un saludo, Rubén. El jue., 13 de diciembre de 2018 10:01, Gemma Ruiz-Olalla < gemma.ruizola...@gmail.com> escribió: > Hola, > > Me he iniciado hace poco en Machine Learning, y tengo una duda sobre mis > conjuntos de datos: el primero tiene 37 variables explicativas y 116 > instancias, y el segundo, 140 variables explicativas y 195 instancias. El > primero lo veo bien, ya que hay 3 veces más casos que variables > explicativas, pero creo que el segundo caso puede suponer un problema al > haber casi el mismo número de predictores que de casos, verdad? > > Para "arreglar" esto (en un Random Forest), tendría sentido hacer iterar el > train() unas 50-100 veces? Ir guardando estos modelos > resultantes (entrenados) en una lista, para luego hacer una especie de > promedio con ellos, y éste resultante (sus parámetros ntree y mtry) usarlo > para generar el modelo randomForest() definitivo. > > Tiene sentido, o qué podría hacer si no? > > Muchas gracias! > > -- > Gemma Ruiz-Olalla > gemma.ruizola...@gmail.com > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es