> From: "Christophe Noël" <[EMAIL PROTECTED]>
> "It is very important to note that we consider (for this document) :
>
>    * document parsing (ie : html to text) as being part of the crawling
>      process
>    * document analysis (language matching, document ranking, extra
>      analysis) as being part of the indexing process"
>
> Certains d'entre vous désignent-ils l'analyse de document comme une
> partie de la phase de parsing ?

Proposition...

Je dirais que d'un point de vue analytique, il importe de distinguer 
l'exploration (crawling) de l'extraction (parsing), et de l'analyse 
(document analysis).

En revanche, d'un point de vue technique, il peut faire sens de confondre 
les deux premiers si l'on considère que l'aspiration d'une page permet 
d'aspirer immédiatement les pages auxquelles cette page fait référence. 
Toutefois, on rencontre là un des principes de la Netiquette qui veut qu'un 
aspirateur discret ne "pompe" pas toutes les ressources d'un serveur web le 
temps d'indexer toutes ses pages. Il y a aussi, comme du temps de Ford, une 
perte de temps liée au fait que le crawler fait plusieurs choses: quand il 
parse, il ne crawle pas et réciproquement.

C'est pourquoi il peut être techniquement envisagé de dissocier les deux 
étapes: l'aspirateur visite alors des URLs qui lui sont servies par un 
"serveur d'URLs" alimenté par un programme qui "parse" les pages ramenées 
par le crawler et indexées sur le serveur.

Ensuite, au niveau de l'analyse proprement dite, pour moi elle comporte bien 
l'indexation, car la manière d'indexer un document dépend aussi des 
résultats de son analyse: pour des questions de performances autant 
techniques que fonctionnelles, on peut imaginer que toutes les données du 
document ne sont pas retenues (du tout ou de la même manière) dans 
l'indexation.

Didier






---------------------------------
motrech - http://motrech.free.fr/
frutch  - http://www.frutch.org/
--------------------------------- 
Liens Yahoo! Groupes

<*> Pour consulter votre groupe en ligne, accédez à :
    http://fr.groups.yahoo.com/group/motrech/

<*> Pour vous désincrire de ce groupe, envoyez un mail à :
    [EMAIL PROTECTED]

<*> L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
    http://fr.docs.yahoo.com/info/utos.html
 


Répondre à