Exite um software free, feito em Java, claro :), que faz a indexação e pesquisa textual.
 
Parece que eh muito bom e agora está incorporado ao projeto Jakarta.
 
Chama-se Lucene. Vale a pena conferir !
 
http://jakarta.apache.org/lucene/docs/index.html
 
O grande lance é que não existe um parser para a língua portuguesa. O parser, pelo que entendi lá, é aquele pedaço de software que tira os sufixos das palavras, pois quando vc pesquisar, por exemplo, pelas palavras "sapo", "sapão" ou "sapinho", qualquer texto que tiver a palavra "sapo" deve retornar na pesquisa.
 
Eu até comecei a fazer uma parser para português, usando o algoritmo "Portter Steamer"( acho q o nome eh esse), mas parei por falta de tempo.
 
Pesquisa lá ...
 

Kleber Rodrigo de Carvalho <[EMAIL PROTECTED]> wrote:
PessoALL
 
Vou ter que desenvolver um sistema de busca em Java.
Esse sistema terá que ter um funcionamento parecido com o google, mas ele vai fazer  pesquisa em uma raiz de diretorio de um computador local. A busca será feita em arquivos html ou txt.
 
Pesquisei no google, e no arquivo da lista da soujava (java-list e enterprise-list) mas não encontrei nada a respeito.
 
Alguém terei alguma informação para me ajuda ?
 
Obrigado
Kleber Rodrigo de Carvalho
 
 



Yahoo! Mail
Mais espaço, mais segurança e gratuito: caixa postal de 6MB, antivírus, proteção contra spam.

Responder a