Re: [R-br] RES: Semelhança de textos

Pedro Andrade Tue, 07 Jun 2011 11:51:15 -0700

Prezado Leandro,

talvez seja interessante usar algum algoritmo que trabalhe com adistancia de Levenshtein para considerar erros de grafia. O pacote vwrimplementa esta métrica.


um abraço,

Pedro


Em 07/06/2011 15:30, Lucas Venezian Povoa escreveu:

Leandro,

Não sei se será útil para você. Mas saber quais frases contém
determinado conteúdo pode ser feito da seguinte maneira:

frases <- c( "Eu tenho um gato", "Meucachorro é legal", "Meu cachorro é
legal", "Meucachorroélegal" );
frases[which( regexpr( "(.)*cachorro(.)*", frases ) == 1)];

Com esses comandos serão exibidas somente as frases que possuem a cadeia
cachorro.

Sobre os erros de grafia você pode procurar sobre busca fonética. Isso é
uma técnica utilizada para melhorar a performance de consultas e para
preparar o sistema para buscar dados mesmo quando a entrada possuir
erros. Por exemplo, se eu buscar Tonny, o sistema retornará Toni, Tonni,
Tony e assim por diante. Porém, essa técnica eu não sei se possui
implementação em R (sei que existe em java e php).

Espero que te ajude.

Att.

On 06/07/2011 03:00 PM, Leandro Marino wrote:


Gustavo, obrigado por ajudar.

Aproveitando a função que estou desenvolvendo, gostaria de saber como
localizar determinado texto no meio de uma frase. Ex.: Quero todos que
tenham citado a palavra “cachorro” em qualquer posição de uma palavra.
Acredito que seria possível, mas não sei trabalhar com expressões
regulares.

Atenciosamente,
*Leandro Lins Marino**
*/Centro de Avaliação//
//Fundação CESGRANRIO//
//Rua Santa Alexandrina, 1011 - 2º andar//
//Rio de Janeiro, RJ - CEP: 20261-903//
//(////(21) 2103-9600 R.:236 //
//*//[email protected] <mailto:[email protected]>/

P***Antes de imprimir**pense em sua responsabilidade e compromisso com
o**MEIO AMBIENTE*

Esta mensagem, incluindo seus anexos, pode conter informacoes
privilegiadas e/ou de carater confidencial, nao podendo ser
retransmitida sem autorizacao do remetente. Se voce nao e o
destinatario ou pessoa autorizada a recebe-la, informamos que o seu
uso, divulgacao, copia ou arquivamento sao proibidos.

Portanto, se você recebeu esta mensagem por engano, por favor, nos
informe respondendo imediatamente a este e-mail e em seguida apague-a.

*De:*[email protected]
[mailto:[email protected]] *Em nome de *Gustavo
Henrique de Carvalho
*Enviada em:* terça-feira, 7 de junho de 2011 14:29
*Para:* [email protected]
*Assunto:* Re: [R-br] Semelhança de textos

?agrep

Tem uma ferramente homônima no Linux/Mac OS X e etc que também é
bastante poderosa, especialmente combinada com awk, sed, grep, etc.

2011/6/7 Leandro Marino <[email protected]
<mailto:[email protected]>>

Caros,

Alguém saberia me dizer se o R tem alguma função implementada que
forneça um percentual de concordância de textos dentro de um
determinado data.frame? Preciso testar todos contra todos, em geral,
são diversos conjuntos de 15 a 20 pequenos textos.

Na realidade estou preparando uma função para encontrar registros
duplicados que possam ter pequenas diferenças de grafia.

Atenciosamente,
*Leandro Lins Marino**
*/Centro de Avaliação
Fundação CESGRANRIO
Rua Santa Alexandrina, 1011 - 2º andar
Rio de Janeiro, RJ - CEP: 20261-903
//(// (21) 2103-9600 R.:236
//*//[email protected] <mailto:[email protected]>/

P***Antes de imprimir**pense em sua responsabilidade e compromisso com
o* *MEIO AMBIENTE*

Esta mensagem, incluindo seus anexos, pode conter informacoes
privilegiadas e/ou de carater confidencial, nao podendo ser
retransmitida sem autorizacao do remetente. Se voce nao e o
destinatario ou pessoa autorizada a recebe-la, informamos que o seu
uso, divulgacao, copia ou arquivamento sao proibidos.

Portanto, se você recebeu esta mensagem por engano, por favor, nos
informe respondendo imediatamente a este e-mail e em seguida apague-a.


_______________________________________________
R-br mailing list
[email protected] <mailto:[email protected]>
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br


_______________________________________________
R-br mailing list
[email protected]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br



--
Lucas Venezian Povoa
URI:http://www.lucasvenezian.orgfree.com



_______________________________________________
R-br mailing list
[email protected]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br


--
Pedro Ribeiro de Andrade, Dr.
Earth System Science Center (CCST)
National Institute for Space Research (INPE)
Sao Jose dos Campos, Brazil

voice +55 12 3208 7130
fax   +55 12 3208 6468
_______________________________________________
R-br mailing list
[email protected]
https://listas.inf.ufpr.br/cgi-bin/mailman/listinfo/r-br

Re: [R-br] RES: Semelhança de textos

Responder a