Estimado Juan Abasolo
Creo que para esto R no es la mejor alternativa, yo no lo intentaría, pero
posiblemente si lo pasa a json y utiliza alguna forma para buscar como si
fuese NoSql, pero es un lío. ¿Esos datos son exportados desde una base de
datos? ¿Si utiliza esa base de datos en local para
Estimada Miriam Alzate
Creo que casi todos pasamos por un problema semejante, por las dudas ¿usted
utiliza alguna librería para realizar el análisis o se encuentra
escribiendo desde cero utilizando matrices? Un matemático puede explicarlo
mucho mejor, pero cuándo yo comencé a ver matrices
Hola Miriam,
Puedes hacer varias cosas para salir al paso:
- El flujo proceso que se suele seguir en este tipo de análisis es el de
cargar todos los documentos a una gran matriz (documento/palabra) sobre la
que luego te quitas muchas palabras "inútiles" (las stopwords). Pues lo que
Me temo que no tengo demasiada experiencia en trabajar con sparse matrix en
R. Definitivamente cuando haces 'as.matrix(x)' estas convirtiendo x en una
matriz normal, no sparse. He visto que existe el paquete slam para trabajar
con ellas (documentación
Muchas gracias Xabier.
He intentaddo trabajar con la sparse matrix pero al pasar tdm a matriz me
dice también que "cannot allocate a vector of size 12 gb".
He hecho tdm<-as.matrix(tdm)
¿Está bien hecho eso para trabajar con la sparse matrix?
Gracias!
El Lun, 10 de Febrero de 2020, 16:15,
La respuesta de Carlos creo que es mucho mas acertada que la mía. Cuando
trabajas con una matriz mayoritariamente con 0s, puedes representar-la en
forma de sparse matrix, y ocupa mucho menos espacio porque no guardas todos
los valores, sino aquellos distintos de 0 y su posición.
Estas
Buenas,
El archivo de R ocupa 33 megas. La matriz que quiero construir cupa 14 gb.
En el disco local (C) tengo 400 gb disponibles de 670.
No estoy muy puesta en trabajar con este tipo de datos. ¿Qué diferencia es
trabajar con data.frame?
Gracias!
El Vie, 7 de Febrero de 2020, 18:07,
Hola,
No conozco de un paquete especial que haga lo que dices, pero vaya es un
problema que se puede resolver de una forma bastante directa.
Basta que a la vuelta, tengas las referencia del "Informante", la frase y
el id que has asignado, para cruzarlo con el dataframe original por estos
mismos
Hola, amigos;
Les presento mi necesidad, a ver si ven cómo resolverla.
Necesito saber el numero relativo de las filas de un data frame, para
poderlos pasar como argumentos en unos scripts de Praat.
Me pasaron un csv con esta estructura:
Informante001 frase(a)
Informante001 frase(b)