D'après ce que j'ai lu de la structure de map-reduce, il semblerait que 
cela ne résiste pas aux facteurs d'échelle aussi conséquent que pour un 
grid... Mais je dirais que pour des raisons scientifiques, le projet ne 
pouvait "betement" reprendre Nutch tel quel, et donc je ne me suis pas 
attardé (pour l'instant) sur ce module. Je crois cependant que mes 
premiers essais ne se feront pas avant fin de l'année 06.

> > A la question plus générale (et liée au billet sur le P2P) : "Comment
> > utiliser un système Grid pour distribuer crawling/indexing " ?
>
Pour un grid, il ne faut justement pas penser moteur de recherche. Un 
moteur n'est rien d'autres que du code. Un code permet d'effectuer des jobs.
Des configurations (valeur du timeout, nombre de threads par host) 
peuvent à la liberté de l'utilisateur du job :
- soit etre calculée (dans le code, on insère : "si bande passante = x 
alors threads per host= Y", et on génère le fichier nutch-default en 
local sur le noeud)
- soit etre passée en paramètre (on envoie avec les urls à crawler, le 
fichier nutch-default à utiliser)
Il n'y a donc pas de pratique habituelle. La seule chose à retenir est 
que le grid ne fait / propose rien ... Tout est à la charge du 
programmeur. Tous les scénarios sont possibles...

Pour la propogagation, elle est possible théoriquement. Mais en 
pratique, on utilisera rarement un mécanisme de propagation :
si après LANCé le job(n) qui crawl 100.000 urls, je désire changer ma 
configuration (nutch-default.xml par exemple), alors je soumets la 
nouvelle configuration (le nouveau code) au grid.
Le job(n) va continuer avec la configuration 1
Les jobs suivant utiliseront la configuration 2.

Ces informations sont assez caricaturées, mais ne s'écartent que très 
peu de la réalité. Etant donné la complexité des technologies Grid, j'ai 
du parfois simplifier certaines réponses/concepts.

Christophe Noel
CETIC.

> > Donc pour plus de questions n'hésitez pas ?
>
> Ma question est simple en fait:
> Tu as une configuration des processus qui vont tourner sur ta grille de
> calcul: Dans le cas d'un moteur de recherche, on pourrait imaginer : le
> nombre de threads par host que utilise pour crawler, la valeur de timeout
> d'une réponse, etc ...
> Comment configure-tu cela? Je parle de manière générale, dans les grid,
> quelle est la pratique habituelle?
> Chaque fois que je vais créer un nouveau job, je lui passe la 
> configuration
> qui va bien?
> La configuration est centralisée sur un noeud en particulier?
> L'administrateur change la configuration, comment est propagée cette info?
>
> Ah oui au fait Jerome, j'espere que j'ai répondu à ta question, pk je ne
> > suis meme pas sur d'avoir bien compris :p
>
> Cf ci dessus...    ;-)
>
> Jérôme
>
> --
> http://motrech.free.fr/
> http://www.frutch.org/
>
>
> [Les parties de ce message comportant autre chose que du texte seul on 
> été supprimées]
>
>
>
> ---------------------------------
> motrech - http://motrech.free.fr/
> frutch  - http://www.frutch.org/
> ---------------------------------
>
>
> ------------------------------------------------------------------------
> *Liens Yahoo! Groupes*
>
>     * Pour consulter votre groupe en ligne, accédez à :
>       http://fr.groups.yahoo.com/group/motrech/
>        
>     * Pour vous désincrire de ce groupe, envoyez un mail à :
>       [EMAIL PROTECTED]
>       <mailto:[EMAIL PROTECTED]>
>        
>     * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des
>       conditions d'utilisation <http://fr.docs.yahoo.com/info/utos.html>.
>
>



---------------------------------
motrech - http://motrech.free.fr/
frutch  - http://www.frutch.org/
--------------------------------- 
Liens Yahoo! Groupes

<*> Pour consulter votre groupe en ligne, accédez à :
    http://fr.groups.yahoo.com/group/motrech/

<*> Pour vous désincrire de ce groupe, envoyez un mail à :
    [EMAIL PROTECTED]

<*> L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
    http://fr.docs.yahoo.com/info/utos.html
 


Répondre à