Estimada María Ruiz. Lo más simple, si son pocos datos, arregle los datos con excel, una base de datos, etc. Limpieza de datos fuera de R. Luego, las palabras y su trabajo, mire tm, texto mining. Saludos Javier Rubén Marcuzzi
El dom., 17 de mar. de 2019 3:17 PM, Maria Ruiz <brew5...@gmail.com> escribió: > Hola a todos, > Soy nueva usando R y tengo unos problema en procesado de datos que quiero > hacer en R. > > Tengo un fichero de datos en formato texto separado con ; (punto y coma). > Este fichero contiene las columnas: > Poblacion;Sexo;Nota; EdadP, EdadM > Tengo 2 problemas que no se como tratar. > 1.- Problema > La columna *Poblacion* debo tenerla siempre con la primera letra en > mayúsculas y tengo poblaciones que tiene artículos o prepsosicones entre > medias como por ejemplo: ( de, del,, las...) > Albaida *de*l Aljarafe o Santa Cruz de Tenerife, tambien tengo algunas > con Valencia, valencia, y (blanco)Valencia o Valencia(blanco) > > > NO sé cémo tratar este dato para que solo aparezca en La primera letra de > cada palabra y no los enlace o artículos, es decir no debe aparecer: del o > de . > > 2,. Problema > La columna *Nota* por hay errores y los datos no todso son de tipo 7.8 o > 8.9 > Parece que han errores y tengo algunos 6,5 o 6,9 > ES decir han introducido la coma como separador decimal en vez de punto. > > Nota podria corregir los errores con otro programa pero quiero hacerlo > todo con R. > > Gracias y espero un pronta respuesta > Adjunto un troz del fichero > > > Un trozo de ejemplo del fichero : > > Poblacion;Sexo;Nota;EdadP;EdadM > > Valencia ;m;7.23;45;34 > > Albaida del Aljarafe;M;5.93;36;37 > > valencia;M;NA;34;35 > > Barcelona;M;6.33;37;29 > > Albalate de las Nogueras; M;8.93;35;26 > > Valencia ;M;7.23;29;44 > > Santa Cruz de Tenerife; M ;NA;26;23 > > Valencia;M;9.23;44;46 > > Valencia; M ;7.63;23;35 > > Valencia ;M;5.73;46;31 > > Valencia;M;5.03;35;35 > > Valencia;M;NA;31;-24 > > Valencia;M ;6.13;35;28 > > Albalate de las Nogueras; M;7.63;24;37 > > Valencia;M ;7.53;28;26 > > Valencia; M;6.33;37;20 > > Santa Cruz de Tenerife;M;5.33;26;25 > > Santa cruz de Tenerife; m;7.33;20;35 > > Santa Cruz de tenerife;M;8.23;-25;39 > > Santa cruz de tenerife;M ;6.93;35;36 > > valencia; M;5.33;39;44 > > Valencia; M;7.73;36;46 > > Valencia;M ;6.23;44;35 > > Valencia;M;6.43;40;31 > > Santa cruz de Tenerife; m;6.83;36;35 > > valencia;M;5,73;39;24 > > valencia;M;6.23;58;28 > > valencia ; m;7.03;50;37 > > Albalate de las Nogueras; m;7.33;20;35 > > Albaida del Aljarafe;M;8.23;25;39 > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es