Merci pour l'aiguillage; les patchs ont apparemment corrigé notre problème.
Par contre, nous n'avons pas installé lxml mais simplement récupéré le 
word_to_text.py, appliqué scrubHTML-v2.diff et PortalTransforms.diff qui ont 
modifié /transforms/__init__.py et libtransforms/utils.py
Nous n'avons pas de /transforms/opendocument_to_html.py (nous sommes en CPS 
3.2).
Les documents qui posaient problème sont maintenant intégrés sans souci.
 
-----Message d'origine-----
De : [EMAIL PROTECTED] [mailto:[EMAIL PROTECTED] De la part de Yves Bastide
Envoyé : vendredi 17 novembre 2006 15:02
À : [email protected]
Objet : Re: [CPS-users-fr] Problème fichiers Word

CHAMBON Monique BCH (AREVA NC) a écrit :
> 
> 
> Nous sommes sur LINUX.
> 
> Quand on fait l'essai d'utiliser wvWare en dehors de CPS pour les 
> fichiers posant problème, cela fonctionne correctement.
> 
> On voit quand même que le processus occupe plus de 90% de CPU, mais ça 
> ne dure pas longtemps, et la transformation en html se fait bien.
> 
> Quand on passe par CPS et que le traitement dure des heures pour 
> certains fichiers, on voit que des fichiers « nom fichier.doc.new » sont 
> créés (des fichiers de travail je suppose).
> 
> Je ne comprends pas bien comment s'imbriquent :
> 
> la modification des documents dans CPS,
> 
> WvWare
> 
> l'indexation du texte (qui doit se faire aussi en même temps).
> 
> Je ne sais plus trop où chercher.    

À priori c'est le nettoyage de l'html et sa transformation en texte. J'ai des 
patchs dans le ticket 1760 (http://svn.nuxeo.org/trac/pub/ticket/1760) qui 
seront p'têt dans CPS 3.4.3, qui sort sous peu. Ils exigent d'installer lxml

yves

_______________________________________________
cps-users-fr
Adresse de la liste : [email protected]
Gestion de l'abonnement : <http://lists.nuxeo.com/mailman/listinfo/cps-users-fr>

Répondre à