CREO QUE ESTE TIPO DE CONSULTA, EXCEDE EL PROP�SITO DE ESTE FORO.



El mi�rcoles, 26 de noviembre de 2014, Daniel Carrillo Zapata <
daniel.carril...@um.es> escribi�:

>      Hola Isidro,
>
>      mira, te explico mejor: tengo una base de datos con informaci�n de
> 10 conductores en un recorrido de 30 minutos en coche. Para cada
> conductor, se le midi� par�metros biom�dicos como la temperatura
> corporal, su electrocardiograma, etc., durante todo el recorrido; en
> total 22 par�metros.
>
>      Mi objetivo principal es poder determinar, dados dichos par�metros,
> los distintos estados en los que puede estar un conductor a lo largo del
> recorrido. Sin embargo, mi conjunto de datos no est� etiquedo, es decir,
> no s� a priori la variable de respuesta, el estado del conductor, para
> cada combinaci�n; tengo que descubrirla.
>
>      Lo que quer�a hacer es, primero, transformar los par�metros porque
> suele ser recomendado para no tener overfitting y reducir la dimensi�n
> de los datos. Para ello, quiero probar dos t�cnicas: ICA y PCA.
>
>      Tras esto, pensaba probar distintos algoritmos de clustering para
> ver c�mo agrupan los datos. Con cada uno, puedo obtener la bondad con la
> que asignan un elemento a un cluster con, por ejemplo, el silhouette
> coefficient, o alg�n otro �ndice interno/externo. Con cada algoritmo de
> clustering que pruebe, etiquetar� mis datos de entrenamiento
> asign�ndoles un cluster (que luego m�s adelante intentar� darle una
> explicaci�n sem�ntica del estado que representa).
>
>      Por cada conjunto resultado (ahora, etiquetado) de aplicar una
> t�cnica de extracci�n de caracter�sticas y otro de clustering, quiero
> probar distintos clasificadores, para ver c�mo se comportan con esa
> agrupaci�n. Por tanto, obtendr� varios errores asociados a clasificaci�n
> porqu� har� cross-validation.
>
>      De esta forma, si pruebo 2 algoritmos de extracci�n de
> caracter�sticas, 3 de clustering y 4 de clasificaci�n, tengo un
> experimento factorial 2x3x4, �no?
>
>      Lo que me gustar�a obtener posteriormente es la mejor combinaci�n
> de t�cnica de extracci�n de caracter�sticas, algoritmo de clustering y
> clasificador, teniendo en cuenta los errores de clasificaci�n y cu�n
> bien los algoritmos de clustering agrupan.
>
>      De ah�, mi duda es c�mo analizar los resultados, porque hab�a
> pensado aplicar una ANOVA de 3 v�as con interacci�n, pero no s� si es
> correcto. Adem�s, no s� si tendr�a sentido, porque tambi�n quiero tener
> en cuenta la bondad del algoritmo de clustering, no solo los errores de
> clasificaci�n. Es decir, necesitar�a analizar las parejas (muestras del
> error de clasificaci�n, bondad del clustering) para cada combinaci�n de
> algoritmo de extracci�n de caracter�sticas, algoritmo de clustering y
> algoritmo de clasificaci�n.
>
>      Espero que te haya aclarado :)
>
>      Muchas gracias.
>
>      Un saludo,
>      DANI
>
>
> On 26/11/14 01:02, Isidro Hidalgo Arellano wrote:
> > Hola, Daniel:
> > Quiz� deber�as ser m�s expl�cito porque de la informaci�n que
> > suministras yo solo te puedo decir que no veo la relaci�n entre los 3
> > tipos de algoritmos que nombras:
> > - un an�lisis de componentes principales puede ser una fase previa de
> > los otros dos
> > - hacer un cluster es un tipo de aprendizaje no supervisado, mientras
> > que un clasificador normalmente es utilizado en aprendizaje
> > supervisado, porque se modeliza conociendo la variable dependiente
> > Por ello, no veo c�mo montar un ANOVA para analizar 3 procedimientos
> > que a m� me parece que se utilizan para cosas completamente diferentes...
> > Me imagino que no he sido de mucha ayuda, pero... �por qu� no nos
> > dices exactamente que quieres hacer, a ver si te podemos ayudar algo m�s?
> > Un saludo,
> > Isidro Hidalgo
> >
> >
> >
> > > El 25/11/2014, a las 22:09, Daniel Carrillo Zapata escribi�:
> > >
> > >
> > >
> > > Hola compa�eros
> > >
> > > Soy Daniel Carrillo, y os escribo porque me ha surgido una duda
> > sobre si
> > > puedo tratar algoritmos de clustering como un factor en un experimento.
> > > Concretamente, tengo un conjunto de datos sin etiquetar, y quiero
> > probar
> > > los siguientes algoritmos sobre �l:
> > >
> > > 1) Extracci�n de caracter�sticas por PCA y por ICA.
> > > 2) Una vez tenga extra�das las caracter�sticas, para cada uno de
> > > los dos conjuntos transformados quisiera probar 3 diferentes algoritmos
> > > de clustering: k-medoids, EM y hierachical clustering.
> > > 3) Por �ltimo, para cada conjunto etiquetado quisiera probar 4 � 5
> > > clasificadores.
> > >
> > > Como se puede ver, estoy dise�ando un experimento factorial para
> > > encontrar el mejor clasificador bas�ndome en probar diferentes t�cnicas
> > > de extracci�n de caracter�sticas, clustering y clasificaci�n.
> > >
> > > Mi objetivo final es entrenar al mejor clasificador bas�ndome en el
> > > mejor algoritmo de clustering, de clasificaci�n y de extracci�n de
> > > caracter�sticas para que etiquete futuros datos.
> > >
> > > Sin embargo, me han surgido dudas de c�mo analizar los resultados, y es
> > > que no s� si se puede aplicar una ANOVA de 3 v�as con interacci�n,
> > > siendo los 3 factores el algoritmo de extracci�n de caracter�sticas,
> > > algoritmo de clustering y algoritmo de clasificaci�n. Mis preguntas por
> > > tanto son:
> > >
> > > 1) �Tiene sentido aplicar ANOVA de 3 v�as con interacci�n?
> > > 2) Si no, �cu�l ser�a la mejor manera de analizar los resultados
> > > del experimento?
> > > 3) �Hay alguna forma de seleccionar al mejor clasificador teniendo
> > > en cuenta los errores de clasificaci�n y cu�n bien el algoritmo de
> > > clustering agrupa los datos (por ejemplo, comparando los "silhouette
> > > coefficients")?, porque pienso que esto lo deber�a tener en cuenta
> > tambi�n.
> > >
> > > Mis dudas vienen suscitadas por el hecho de que pienso que los
> > > algoritmos de clasificaci�n son totalmente dependientes del los de
> > > clustering (que les etiqueta los datos).
> > >
> > > Conf�o en vuestra experiencia para que me aport�is un rayo de luz en
> > esto
> > >
> > > �Much�simas gracias!
> > >
> > > Un saludo,
> > > DANI
> > >
> > > _______________________________________________
> > > R-help-es mailing list
> > > R-help-es@r-project.org <javascript:;>
> > > https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es@r-project.org <javascript:;>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Sent from my IPAD

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Responder a