Prezados, Gostaria de sugestões para encarar o seguinte problema:
Estou uma base que contém um código identificador e o nome da pessoa. Teoricamente, cada código é único e representa uma única pessoa, mas posso ter falhas. Além disso, posso ter problema de digitação. Segue exemplo: id nome 1 100 JOAO SILVA 2 100 SILVA JOAO 3 101 MARIA DA SILVA 4 101 MARIA SOARES DA SILVA 5 102 JOSE CANCIO 6 102 LEONORA FURTADO 7 102 LEONORA FURTADO 8 103 JOSE TRINDADE 9 103 JOSE TRINDDE 10 104 PAULO SILVA 11 105 LUIZ COSTA 12 106 ISABEL CHAGAS 13 106 CHAGAS ISABEL 14 107 VANIA VALERIA 15 107 SANDRA SANTOS Nesse caso, no id 100 tenho problema de digitação, mas se trata da mesma pessoa. O mesmo ocorre nos ids 101, 103 e 106. No id 103 tenho um erro de digitação. No id 102 tenho duas pessoas diferentes, assim como no 107. Como eu poderia automatizar a avaliação de quais ids tenho pessoas diferentes? > dput(teste) structure(list(id = c(100, 100, 101, 101, 102, 102, 102, 103, 103, 104, 105, 106, 106, 107, 107), nome = structure(c(3L, 13L, 9L, 10L, 4L, 7L, 7L, 5L, 6L, 11L, 8L, 2L, 1L, 14L, 12L), .Label = c("CHAGAS ISABEL", "ISABEL CHAGAS", "JOAO SILVA", "JOSE CANCIO", "JOSE TRINDADE", "JOSE TRINDDE", "LEONORA FURTADO", "LUIZ COSTA", "MARIA DA SILVA", "MARIA SOARES DA SILVA", "PAULO SILVA", "SANDRA SANTOS", "SILVA JOAO", "VANIA VALERIA"), class = "factor")), .Names = c("id", "nome" ), row.names = c(NA, -15L), class = "data.frame") Obrigado e abraços *Paulo Dick* Estatístico / Epidemiologia em Saúde Pública Tel.: (55 21) 99591-2716
_______________________________________________ R-br mailing list R-br@listas.c3sl.ufpr.br https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br Leia o guia de postagem (http://www.leg.ufpr.br/r-br-guia) e forne�a c�digo m�nimo reproduz�vel.