Hola, Sí, eses esquema es el básico que se suele aplicar aunque "el diablo está en los detalles" y para cada una de las etapas hay múltiples cosas que puedes hacer además de las que has comentado.
Los detalles dependen del problema que estés tratando y si el tipo de modelo que quieras generar sea más o menos entendible, vaya si vas a querer aplicar algo de ensamblados o no. Hay casos que para entrar en producción mejor tener un modelo muy claro y sencillo de mantener que uno muy "ofuscado". Otro punto que es importante, si utilizas modelos diferentes a los lineales, es el de buscar los parámetros que mejor ajustan tu modelo. Que extiende la idea que comentas del CV (cross validation) y que de por sí es todo un mundo. Por solo apuntarlo, también hay un elemento que es muy importante y es todo el concepto de "feature engineering". Tú lo has descrito como la "sanidad del dataset" pero no es solo describir las variables, o tratar los NAs, es crear variables adicionales a partir de las que tienes que pueden enriquecer mucho el modelo. Esta fase es diferencial si quieres exprimir un tanto más tu modelo. Y en cuanto al modelo inicial exploratorio, ¿clustering para un modelo supervisado?... Muchas de estas cosas las hemos ido contando en el Grupo de R de Madrid en diferentes sesiones, en particular cuando hemos contado nuestras experiencias participando en diferentes concursos de datos donde apurar en cada una de estas etapas supone un mejor o peor resultado. Además de lo que hemos comentado en el Grupo, hay múltiples referencias adicionales en particular cuando los ganadores de los concursos de Kaggle cuentan sus soluciones. De vez en cuando llegan a resumir sus estrategias tras participar en varios concursos y lo que cuentan en especialmente interesante. De lo que he visto recientemente me ha gustado mucho esto: https://www.meetup.com/es-ES/Silicon-Valley-Big-Data-Science/events/236800410/?eventId=236800410 Y lo que cuenta Dmitri Larko, su presentación está aquí: https://github.com/h2oai/h2o-meetups/blob/master/2017_01_19_SV_BigData_Science/2016_01_19_H2O_Meetup_Bimbo.pdf Saludos, Carlos Ortega www.qualityexcellence.es El 27 de enero de 2017, 19:44, Jesús Para Fernández < j.para.fernan...@hotmail.com> escribió: > Buenas, > > > Empieza el finde, así que abro un hilo algo OFF TOPIC en cuanto a R se > conoce. > > > Imaginad un problema cualquiera supervisado, por ejemplo la relacione > entre variables y que un suceeso ocurra o no. ¿Cómo lo abordamos? > > > Yo empezaría de la siguietne manera: > > 1- Hablar con la gente que conozca el proceso del cual provienen esos > datos y entender bien le proceso > > 2. Buscar la sanidad del dataset (datos faltantes,outliers, distribucion > de los datos, normalizarlos...) > > 3. Hacer un clustering para entender posibles asociaciones entre datos > > 4. Partir los datos en train y test > > 5. Poner los modelos y pasarlos por un Kfold en funcion del train/test > > 6. Ver el mejor modelo > > 7. Extraeer conclusiones de ese modelo. > > > ¿Vosotros que haceis? Usais el clustering para el análisis exploratorio? > > > Un saludo y buen finde > > [[alternative HTML version deleted]] > > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > -- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es