; >> >>>>>
>>>>> >> >>>>> library(data.table)
>>>>> >> >>>>> setwd("C:/Users/pedroc/Desktop/ADE-Corpus-V2") #Pon tu
>>>>> directorio
>>>>> >> >>>>>
comment.char = "",
>>>> >> >>>>> header = F,
>>>> >> >>>>> quote = "")
>>>> >> >>>>>
>>>> >> >>>>> str(dat)
>
oda en blanco.
> >> >>>>> Lo primero yo creo que es dejar el archivo en texto plano (lo que
> te
> >> >>>>> recomendaba Carlos de usar el original, no el docx), y buscar esos
> >> >>>>> caracteres con un editor de texto plano tipo Notepad. Los pue
en texto plano (lo que
>>> te
>>> >>>>> recomendaba Carlos de usar el original, no el docx), y buscar esos
>>> >>>>> caracteres con un editor de texto plano tipo Notepad. Los puedes
>>> eliminar
>>> >>>>> si no cumple
>>>>>
>> >>>>> comment.char = "" no te corta la lectura de fichero como si fuera
>> un
>> >>>>> comentario, te lo añade a la cadena (eso si quieres usar el
>> carácter, si no
>> >>>>> elimínalo)
>>
quot; lo mismo con la comilla como comienzo de una cadena
> >>>>>
> >>>>> Pero verás que hay muchísimas más opciones que te evitan que se corte
> >>>>> la lectura (blank lines, ...) o que te rellene con NA's si no
> encuentra
> >>
se corte
>>>>> la lectura (blank lines, ...) o que te rellene con NA's si no encuentra
>>>>> todas las columnas del header (flush = TRUE).
>>>>> Luego pasas a data.table con data.table(objeto_que_has_leido) y ya está.
>>>>>
>&g
t; todas las columnas del header (flush = TRUE).
>>>> Luego pasas a data.table con data.table(objeto_que_has_leido) y ya está.
>>>>
>>>> read.table(file, header = FALSE, sep = "", quote = "\"'",
>>>>
"allow.loss", "warn.loss", "no.loss"),
>>>row.names, col.names, as.is = !stringsAsFactors,
>>>na.strings = "NA", colClasses = NA, nrows = -1,
>>>skip = 0, check.names =
ip = 0, check.names = TRUE, fill = !blank.lines.skip,
>> strip.white = FALSE, blank.lines.skip = TRUE,
>>comment.char = "#",
>>allowEscapes = FALSE, flush = FALSE,
>>stringsAsFactors = default.stringsAsFactors(),
&
===
En respuesta a:
--
Message: 2
Date: Tue, 29 Sep 2015 16:55:05 +0200
From: MªLuz Morales <mailto:mlzm...@gmail.com>
To: r-help-es <mailto:r-help-es@r-project.org>
Subject: [R-es] sobre fread {data.table}
Message-ID:
<mailto:canmatom+srrt
El .rel lo transformé a .doc, manualmente cambiando la extensión. Una vez
puesto como .doc, lo he abierto y he comprobado que los datos son líneas
con 8 columnas separadas por salto de línea entre ellas. fread me da un
data-table con esa estructura exactamente, lo hace muy bien, pero no me da
todas
Hola,
usaba fread porque me devuelve data.table que es lo que quiero usar
El 29 de septiembre de 2015, 17:05, Carlos Ortega
escribió:
> No sé porqué piensas que "fread" va poder leer cualquier cosa...
>
> Ya que lo tienes en Word, prueba con esto:
> https://github.com/hrbrmstr/docxtractr
>
> Sal
heck.names = TRUE, fill = !blank.lines.skip,
>>strip.white = FALSE, blank.lines.skip = TRUE,
>>comment.char = "#",
>>allowEscapes = FALSE, flush = FALSE,
>>stringsAsFactors = default.stringsAsFactors(),
>>
= default.stringsAsFactors(),
>fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
>
>
> Saludos,
> Pedro
>
> =
> En respuesta a:
>
> --
>
> Message: 2
> Date: Tue, 29 Sep 2015
ot;#",
allowEscapes = FALSE, flush = FALSE,
stringsAsFactors = default.stringsAsFactors(),
fileEncoding = "", encoding = "unknown", text, skipNul = FALSE)
Saludos,
Pedro
=========
En respuesta a:
------
Message: 2
dec = ".", numerals = c("allow.loss", "warn.loss",
>>> "no.loss"),
>>> >row.names, col.names, as.is = !stringsAsFactors,
>>> >na.strings = "NA", colClasses = NA, nrows = -1,
>>> >
colClasses = NA, nrows = -1,
>> >skip = 0, check.names = TRUE, fill = !blank.lines.skip,
>> >strip.white = FALSE, blank.lines.skip = TRUE,
>> >comment.char = "#",
>> > allowEscapes = FALSE, flush = FALSE,
>
!blank.lines.skip,
> >strip.white = FALSE, blank.lines.skip = TRUE,
> >comment.char = "#",
> >allowEscapes = FALSE, flush = FALSE,
> >stringsAsFactors = default.stringsAsFactors(),
> > fileEncoding =
> Saludos,
> Pedro
>
> =
> En respuesta a:
>
> --
>
> Message: 2
> Date: Tue, 29 Sep 2015 16:55:05 +0200
> From: MªLuz Morales <mailto:mlzm...@gmail.com>
> To: r-help-es <mailto:r-help-es@r-project.org>
>
Ya, pero fread puede atacar un conjunto de ficheros determinado, con una
estructura determinada.
Los docx tienen una codificación que en parte fread puede entender, pero
que otra parte no (esa codificación es la que te permite ver los formatos,
tablas, etc, etc cuando abres un documento Word).
Ye
Sí claro, este es el código:
library(qdapTools)
#ADEcorpus <- read_docx("C:\\Users\\Documents\\Proyecto
iphealt\\ProcesamientoTexto\\Adverse Drug Event\\ADE-Corpus\\DRUG-AE.docx")
library(data.table)
ADEcorpusDT <- fread("C:\\Users\\Documents\\Proyecto
iphealt\\ProcesamientoTexto\\Adverse Drug
Ev
No sé porqué piensas que "fread" va poder leer cualquier cosa...
Ya que lo tienes en Word, prueba con esto:
https://github.com/hrbrmstr/docxtractr
Saludos,
Carlos Ortega
www.qualityexcellence.es
El 29 de septiembre de 2015, 16:55, MªLuz Morales
escribió:
> Buenas tardes,
>
> intento almacenar
Hola Ma Luz,
Es dificil saber que salgo mal sin saber que hiciste. Podrias por favor
enviarnos el codigo que utilizaste?
Saludos cordiales,
Jorge.-
2015-09-29 9:55 GMT-05:00 MªLuz Morales :
> Buenas tardes,
>
> intento almacenar el contenido de un archivo .docx en un data.table, pero
> solo me
Buenas tardes,
intento almacenar el contenido de un archivo .docx en un data.table, pero
solo me devuelve 1855 filas cuando deberñian ser 6821.
Sin embargo, el mismo archivo se me descarga completo usando read_docx
{qdapTools}, pero este devuelve un vector carácter y no es lo que quiero.
¿Alguie
25 matches
Mail list logo