Jean-Luc Bonduel a écrit : > > J'ai un petit souci avec l'indexation des PDF. > Bien que le fichier soit prévisualisable, > le fichier n'est pas index dans le moteur de recherche. > J'ai bien le message "Le chemin d'accès spécifié est introuvable." > mais je n'arrive pas à déterminer d'où il provient. >
Il est très étrange que la prévisualisation fonctionne mais pas l'indexation. Normalement si il y a prévisualisation en HTML alors on a l'indexation qui transforme le html en texte brut. Pour comprendre ce qui ne va pas on peut aller modifier le fichier PortalTransforms/transforms/pdf_to_html.py pour commenter la ligne suivante : self.cleanDir(tmpdir) De cette manière le répertoire temporaire qui sert à héberger les transformations n'est pas supprimé et on peut examiner les fichiers et les messages d'erreurs dans le fichier de log qui est généralement généré. Au passage, on peut utiliser ce procédé pour comprendre toutes les autres transformations qui auraient des problèmes. > La seconde question porte sur l'indexation des fichiers Word 2007. > Est-ce que le portal_transforms est capable de les indexer? > PortalTransforms utilise la bibliothèque « wv » pour effectuer les conversion des fichiers Microsoft Word en HTML, mais les nouveaux formats Microsoft Word en XML ne sont pas supportés : wv is a library which allows access to Microsoft Word files. It can load and parse Word 2000, 97, 95 and 6 file formats. (These are the file formats known internally as Word 9, 8, 7 and 6.) cf. http://wvware.sourceforge.net/ La transformation des fichiers au format Microsoft Word 2007 pourrait être très facilement ajouté à CPS pour autant qu'on dispose d'un convertisseur Microsoft Word 2007 vers HTML. Cordialement, -- Marc-Aurèle DARCHE Open Source Enterprise Content Management (ECM) http://www.nuxeo.org/ NUXEO (Paris, France) http://nuxeo.com/ _______________________________________________ cps-users-fr Adresse de la liste : [email protected] Gestion de l'abonnement : <http://lists.nuxeo.com/mailman/listinfo/cps-users-fr>
