Muy buenas:

He encontrado el paquete textreuse y lo quiero utilizar para comparar dos
archivos pdf.

Me ha sido imposible cargar los archivos para utilizar las funciones
TextReuseCorpus() o TextReuseTextDocument().

En la documentación del paquete los archivos los cargan desde

¿Alguien sabe cómo se hace?

He conseguido calcular la similitud de jaccard utilizando este paquete,
pero para ello he empleado el siguiente código.

library(pdftools)

library(textreuse)

 text1 <- pdf_text("uno.pdf")

text2 <- pdf_text("dos.pdf")

full_text1 <- paste(text1, collapse = " ")

full_text2 <- paste(text2, collapse = " ")

a <- tokenize_words(full_text1)

b <- tokenize_words(full_text2)

jaccard_similarity(a, b)


Gracias

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

Responder a