No me hab�a fijado en el c�digo, te hab�a he contestado te�ricamente.
A ver, en ese c�digo tienes varios problemas: - No especificas los par�metros del modelo (para eso es la validaci�n cruzada). En RF tendr�as que especificar el n�mero de �rboles, la cantidad de puntos con los que acotar la regresi�n, etc. En SVM el tipo de kernel que vas a usar, la sensibilidad� NO SE TRATA S�LO de hacer modelos con diferentes conjuntos de entrenamiento, sino de buscar los par�metros que mejor ajustan los datos. Te pongo un ejemplo: imag�nate que tienes mucho ruido, en ese caso, en cada punto de regresi�n, tendr�s que tomar un n�mero de puntos mayor (par�metro "nodesize") - Respecto a no guardar los modelos, es muy f�cil con una lista. Cada modelo que hagas, gu�rdalo en un lista, junto con los datos de resultados que quieras (incluyendo los par�metros de especificaci�n del modelo) Te recomiendo 2 cosas: - Usa el paquete caret - Lee este libro: https://link.springer.com/book/10.1007/978-1-4614-6849-3 Con el libro matas varios p�jaros de un tiro: - Aprendes algo de teor�a (poca), que siempre viene bien - El autor es el creador del paquete caret Si tienes tiempo, yo buscar�a un curso del MIT que es muy bueno, aunque de los duros, te lo tienes que programar casi todo desde 0, pero cuando acabas, la teor�a (con �ste s�) la has machacado bastante bien, y sabes lo que hace un SVM, un RF. Es �ste: https://www.edx.org/course/learning-data-introductory-machine-caltechx-cs115 6x Tiene un libro asociado que est� muy bien tambi�n. Si te da miedito, hay otro m�s suave, de los cl�sicos Hastie y Tibshirani: https://lagunita.stanford.edu/courses/HumanitiesSciences/StatLearning/Winter 2016/about �stos tambi�n tienen 2 libros muy buenos. El resumido es en el que se basa el curso anterior. De: Jes�s Para Fern�ndez [mailto:j.para.fernan...@hotmail.com] Enviado el: viernes, 02 de junio de 2017 12:04 Para: Isidro Hidalgo Arellano <ihida...@jccm.es>; r-help-es@r-project.org Asunto: Re: [R-es] CV en R Es que es justo ahi donde no se como hacerlo. Es decir, dentro del bucle for hago las comprobaciones train test, y me da que de media el mejor es randomForest, pero claro, no me estoy quedando con el modelo, ya que no se va guardando....Entonces es cuando no se como seguir para quedarme con ese modelo.... _____ De: Isidro Hidalgo Arellano < <mailto:ihida...@jccm.es> ihida...@jccm.es> Enviado: viernes, 2 de junio de 2017 11:59 Para: 'Jes�s Para Fern�ndez'; <mailto:r-help-es@r-project.org> r-help-es@r-project.org Asunto: RE: [R-es] CV en R No, no. Si construyes el modelo con todos los datos, expl�came para qu� te ha servido la validaci�n cruzada... �S�lo para saber si funciona mejor SVM o RF con ese conjunto de datos? Eso es insuficiente. Cuando construyes un modelo, lo haces entrenando con datos que el modelo NO VE, ah� est� la gracia... Te tienes que quedar con el mejor modelo entrenado. Y despu�s ver c�mo te funciona en la vida real, es decir, con nuevos datos que el modelo NO HA VISTO. Un saludo. Isidro Hidalgo Arellano Observatorio del Mercado de Trabajo Consejer�a de Econom�a, Empresas y Empleo <http://www.castillalamancha.es/> http://www.castillalamancha.es/ <http://www.castillalamancha.es/> Inicio | Gobierno de Castilla-La Mancha <http://www.castillalamancha.es> www.castillalamancha.es Web oficial del gobierno auton�mico de Castilla-La Mancha con informaci�n sobre actividad administrativa, econom�a, educaci�n, sanidad, servicios sociales, sede ... -----Mensaje original----- De: R-help-es [ <mailto:r-help-es-boun...@r-project.org> mailto:r-help-es-boun...@r-project.org] En nombre de Jes�s Para Fern�ndez Enviado el: viernes, 02 de junio de 2017 11:48 Para: <mailto:r-help-es@r-project.org> r-help-es@r-project.org Asunto: [R-es] CV en R Buenas, Estoy haciendo modelos y comparando cual es mejor. Para ello, uso CV de 10 folds. Por ejemplo, hago la comparativa entre un svm y un randomForest para una serie de datos, por ello hago: midataset<-import..... #datos es un dataframe de 1500 filas y 15 variables for(i in 1:10){ numeros<-sample(1:1500,1500*0.7) train<-datos[numeros,] test<-datos[-numeros,] #modeloRF modelo.rf<-randomForest(respuesta~,train) prediccion<-predict(modelo.rf,test) fp<-table(prediccion,test$respuesta)[2,1] fn<-table(prediccion,test$respuesta)[1,2] error<-(fp+fn)/nrow(train.balanceado) resultado<-rbind(resultado,data.frame(error=error,modelo="rf")) #modelo SVM modelo.svm<-svm(respuesta~,train) prediccion<-predict(modelo.svm,test) fp<-table(prediccion,test$respuesta)[2,1] fn<-table(prediccion,test$respuesta)[1,2] error<-(fp+fn)/nrow(train.balanceado) resultado<-rbind(resultado,data.frame(error=error,modelo="svm")) } Mi pregunta es la siguiente. Si el modelo de RF es mejor, como me quedo con el modelo final? Tengo que crear el modelo de nuevo, sin tener en cuenta el train? modelo.final<-randomForest(respuesta~.,datos) Gracias!!!! [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list <mailto:R-help-es@r-project.org> R-help-es@r-project.org <https://stat.ethz.ch/mailman/listinfo/r-help-es> https://stat.ethz.ch/mailman/listinfo/r-help-es [[alternative HTML version deleted]]
_______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es