On Tue, Aug 12, 2003 at 00:57:43 +0200, Vincent Bernat wrote: > OoO En cette fin de matinée radieuse du lundi 11 août 2003, vers > 11:06, Nicolas Ledez <[EMAIL PROTECTED]> disait: > > > C'est bien ce que je disait, il faut extraire tout les mots et le > > mettres dans une struture de recherche rapide (arbre, hash, ...), leurs > > faire correspondre les ID des messages,... > > Donc pour 10Mo de mails, tes index vont faire 10-15 Mo > > J'indexe 500 Mo de mails avec swish++, la recherche est de l'ordre de > la seconde et l'index fait 17 Mo. Tu as des mails où chaque mot est > distinct ?
Tu peux aussi rechercher des sous-mots, avec une recherche de l'ordre de la seconde? C'est important pour rechercher à la fois le singulier et le pluriel, ou l'ensemble des formes d'un verbe ou quand on a des mots composés, ou quand quelqu'un écrit "mettres" au lieu de "mettre" :), etc. Ça ne pose pas de problème avec les mots accentués (la FAQ dit que swish++ ne marche pas bien pour les langues autres que l'anglais). -- Vincent Lefèvre <[EMAIL PROTECTED]> - Web: <http://www.vinc17.org/> - 100% validated (X)HTML - Acorn Risc PC, Yellow Pig 17, Championnat International des Jeux Mathématiques et Logiques, TETRHEX, etc. Work: CR INRIA - computer arithmetic / SPACES project at LORIA