> From: "Christophe Noël" <[EMAIL PROTECTED]> > "It is very important to note that we consider (for this document) : > > * document parsing (ie : html to text) as being part of the crawling > process > * document analysis (language matching, document ranking, extra > analysis) as being part of the indexing process" > > Certains d'entre vous désignent-ils l'analyse de document comme une > partie de la phase de parsing ?
Proposition... Je dirais que d'un point de vue analytique, il importe de distinguer l'exploration (crawling) de l'extraction (parsing), et de l'analyse (document analysis). En revanche, d'un point de vue technique, il peut faire sens de confondre les deux premiers si l'on considère que l'aspiration d'une page permet d'aspirer immédiatement les pages auxquelles cette page fait référence. Toutefois, on rencontre là un des principes de la Netiquette qui veut qu'un aspirateur discret ne "pompe" pas toutes les ressources d'un serveur web le temps d'indexer toutes ses pages. Il y a aussi, comme du temps de Ford, une perte de temps liée au fait que le crawler fait plusieurs choses: quand il parse, il ne crawle pas et réciproquement. C'est pourquoi il peut être techniquement envisagé de dissocier les deux étapes: l'aspirateur visite alors des URLs qui lui sont servies par un "serveur d'URLs" alimenté par un programme qui "parse" les pages ramenées par le crawler et indexées sur le serveur. Ensuite, au niveau de l'analyse proprement dite, pour moi elle comporte bien l'indexation, car la manière d'indexer un document dépend aussi des résultats de son analyse: pour des questions de performances autant techniques que fonctionnelles, on peut imaginer que toutes les données du document ne sont pas retenues (du tout ou de la même manière) dans l'indexation. Didier --------------------------------- motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ --------------------------------- Liens Yahoo! Groupes <*> Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ <*> Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] <*> L'utilisation de Yahoo! Groupes est soumise à l'acceptation des : http://fr.docs.yahoo.com/info/utos.html