Estimada María Ruiz.
Lo más simple, si son pocos datos, arregle los datos con excel, una base de
datos, etc. Limpieza de datos fuera de R. Luego, las palabras y su trabajo,
mire tm, texto mining.
Saludos
Javier Rubén Marcuzzi

El dom., 17 de mar. de 2019 3:17 PM, Maria Ruiz <brew5...@gmail.com>
escribió:

> Hola a todos,
> Soy nueva usando R y tengo unos problema en procesado de datos que quiero
> hacer en R.
>
> Tengo un fichero de datos  en formato texto separado con ; (punto y coma).
> Este fichero contiene las columnas:
> Poblacion;Sexo;Nota; EdadP, EdadM
> Tengo 2 problemas que no se como  tratar.
> 1.- Problema
> La  columna *Poblacion* debo tenerla  siempre con la primera letra en
> mayúsculas y  tengo poblaciones  que tiene artículos o prepsosicones entre
> medias como por ejemplo: ( de, del,, las...)
> Albaida *de*l Aljarafe o  Santa Cruz de  Tenerife, tambien tengo algunas
> con Valencia, valencia, y (blanco)Valencia o Valencia(blanco)
>
>
> NO sé cémo tratar este dato para que solo aparezca en La primera letra  de
> cada palabra y no los enlace o artículos, es decir no debe aparecer: del o
> de .
>
> 2,. Problema
> La columna *Nota* por  hay errores y los datos no todso son de tipo 7.8 o
> 8.9
> Parece que han errores y tengo algunos  6,5 o 6,9
> ES decir han introducido la coma como separador decimal en vez de punto.
>
> Nota podria corregir los errores con otro programa pero quiero hacerlo
> todo con R.
>
> Gracias y espero un pronta respuesta
> Adjunto un troz del fichero
>
>
> Un trozo de ejemplo del fichero :
>
> Poblacion;Sexo;Nota;EdadP;EdadM
>
>   Valencia ;m;7.23;45;34
>
> Albaida del Aljarafe;M;5.93;36;37
>
> valencia;M;NA;34;35
>
> Barcelona;M;6.33;37;29
>
> Albalate de las Nogueras;  M;8.93;35;26
>
>   Valencia ;M;7.23;29;44
>
> Santa Cruz de Tenerife;  M   ;NA;26;23
>
> Valencia;M;9.23;44;46
>
> Valencia;  M   ;7.63;23;35
>
> Valencia ;M;5.73;46;31
>
>  Valencia;M;5.03;35;35
>
> Valencia;M;NA;31;-24
>
> Valencia;M   ;6.13;35;28
>
> Albalate de las Nogueras;  M;7.63;24;37
>
>  Valencia;M   ;7.53;28;26
>
>  Valencia;  M;6.33;37;20
>
> Santa Cruz de Tenerife;M;5.33;26;25
>
> Santa cruz de Tenerife;  m;7.33;20;35
>
>  Santa Cruz de tenerife;M;8.23;-25;39
>
> Santa cruz de tenerife;M   ;6.93;35;36
>
> valencia;  M;5.33;39;44
>
>  Valencia;  M;7.73;36;46
>
>   Valencia;M   ;6.23;44;35
>
>  Valencia;M;6.43;40;31
>
> Santa cruz de Tenerife;  m;6.83;36;35
>
> valencia;M;5,73;39;24
>
>   valencia;M;6.23;58;28
>
>  valencia ;  m;7.03;50;37
>
> Albalate de las Nogueras;  m;7.33;20;35
>
> Albaida del Aljarafe;M;8.23;25;39
> _______________________________________________
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Responder a