On Oct 18, 2006, at 5:04 PM, Yves Bastide wrote:
Georges Racinet wrote:
On Oct 18, 2006, at 3:08 PM, Yves Bastide wrote:
[...]
* il nécessite une version récente de lxml (au moins 1.0, je pense)
Si je comprends bien c'est parce que lxml comprend bien le html
pas bien formé ?
Oui : il contient un HTMLParser depuis la version 1.0. ElementTree
n'en a pas.
Par contre, mon word_to_text a besoin de lxml >= 1.1 (pour
iterwalk, qui itère sur l'arbre en construction, et permet
d'accéder à .text et .tail dans l'ordre)
* il est faux :-) (supprimant les parties du document HTML sous
les balises inconnues, au lieu de supprimer les balises seules ;
il faut au minimum ajouter 'font' aux balises reconnues)
Bonjour, on se demandait justement si on l'incorporerait dans la
(future mais proche) 3.4.3 :-)
Pour cela, il faudrait, bien sûr qu'il soit corrigé, s'il est
incomplet et faire attention à la dépendance sur lxml:
par exemple, lxml 1.0.3 est actuellement dans la branche "testing"
de Debian. Àma, ce serait bien de tester la présence de lxml et
d'utiliser l'ancien système par défaut, je crois qu'il y a pas mal
de gens qui se débarassent simplement de CPSBlog pour faire
tourner leur CPS dans lxml (ceci date d'une époque où
l'installation de lmxl était plus difficile).
Ui, c'est d'ailleurs CPSBlog qui m'a fait penser à essayer lxml,
pas ElementTree, sur le serveur que Word -> HTML faisait tomber :)
Je vais voir comment corriger mon scrubHTML : soit rajouter des «
tags autorisés » à VALID_TAGS, soit, si c'est possible, remplacer
les tags inconnus par des <span>...
Ok, on reste à l'écoute
Dépendance sur lxml 1.0 : mon patch s'en occupe déjà
Parfait !
2b. j'attache aussi un word_to_text.py utilisant wvware : le
mettre dans PortalTransforms/transforms, modifier transforms/
__init__.py pour qu'il l'appelle, et l'ajouter sous la ZMI
On peut avoir ça aussi dans le ticket ? une source unique c'est
plus simple.
Oui... Dès que j'aurai fait écrit test... Et lxml 1.1 n'est encore
ni dans Debian, ni dans Ubuntu...
Hmh pour le coup ce serait pour 3.4.4, sauf si ça teste la version de
lxml et fait ce qu'il faut si c'est < 1.1
Merci pour les contributions en tout cas.
Écrites contraint et forcé :)
Mais avec le sourire :-)
Quel est l'ordre de grandeur du gain au fait ?
---------
Georges Racinet, Nuxeo SAS
Open Source Enterprise Content Management (ECM)
Web: http://www.nuxeo.com/ and http://www.nuxeo.org/ - Tel: +33 1 40
33 79 87
_______________________________________________
cps-users-fr
Adresse de la liste : [email protected]
Gestion de l'abonnement : <http://lists.nuxeo.com/mailman/listinfo/cps-users-fr>