[R-es] problemas para abrir archivo RData- magic number

2020-04-28 Por tema Dario Manzoli
Hola a todos: Les hago una consulta porque tengo problemas para abrir un archivo .RData (se llama �parasitismo spp secuendarias.RData�), lo intento abrir como lo hago habitualmente y me aparece el siguiente mensaje en la consola: Error in load("~parasitismo spp secundarias.RData") : bad

Re: [R-es] [Posible SPAM] Re: Stopwords: Topic modelling con LDA

2020-04-28 Por tema miriam . alzate
Gracias Carlos! Apunto tu sugerencia. El Mar, 28 de Abril de 2020, 12:53, Carlos Ortega escribió: > Hola, > Yo de primeras los quitaría para qué otros topics aparecen. > > Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que > desaparecen como relevantes esas palabras comunes, será

Re: [R-es] Stopwords: Topic modelling con LDA

2020-04-28 Por tema miriam . alzate
Hola Pedro, muchas gracias por tu respuesta. Estoy analizando 64.000 documentos con una media de 53 palabras cada uno. Los 65.000 pertenecen a 41 productos diferentes. Había elegido k=15 porque al ver el indice de perplexity entre 2 y 20 k´s parece que era el óptimo, si bien quizá tenga que

Re: [R-es] Stopwords: Topic modelling con LDA

2020-04-28 Por tema Pedro Concejero
Hola Miriam, Si tu propósito es extraer tópicos de tu LDA, no suele ser de interés que salgan muchas palabras comunes entre los tópicos, así que a tu pregunta ¿incluiríais estas palabras como stopwords? Yo te diría que sí, o alternativamente que utilices un filtrado por tf-idf que te quitará

Re: [R-es] Stopwords: Topic modelling con LDA

2020-04-28 Por tema Carlos Ortega
Hola, Yo de primeras los quitaría para qué otros topics aparecen. Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que desaparecen como relevantes esas palabras comunes, será otra forma de confirmar que es buena la decisión de hacer el análisis eliminandolas. Saludos, Carlos

[R-es] Stopwords: Topic modelling con LDA

2020-04-28 Por tema miriam . alzate
Buenos días, Estoy realizando un análisis de topic models con el método LDA. En principio, he quitado del análisis las palabras "stopwords" universales. A la hora de ver los topics y sus palabras más frecuentes encuentro que son muy similares y hay palabras que aparecen en todos los topics. Los