On Oct 18, 2006, at 5:04 PM, Yves Bastide wrote:

Georges Racinet wrote:
On Oct 18, 2006, at 3:08 PM, Yves Bastide wrote:
[...]
* il nécessite une version récente de lxml (au moins 1.0, je pense)
Si je comprends bien c'est parce que lxml comprend bien le html pas bien formé ?

Oui : il contient un HTMLParser depuis la version 1.0. ElementTree n'en a pas.

Par contre, mon word_to_text a besoin de lxml >= 1.1 (pour iterwalk, qui itère sur l'arbre en construction, et permet d'accéder à .text et .tail dans l'ordre)

* il est faux :-) (supprimant les parties du document HTML sous les balises inconnues, au lieu de supprimer les balises seules ; il faut au minimum ajouter 'font' aux balises reconnues)
Bonjour, on se demandait justement si on l'incorporerait dans la (future mais proche) 3.4.3 :-) Pour cela, il faudrait, bien sûr qu'il soit corrigé, s'il est incomplet et faire attention à la dépendance sur lxml: par exemple, lxml 1.0.3 est actuellement dans la branche "testing" de Debian. Àma, ce serait bien de tester la présence de lxml et d'utiliser l'ancien système par défaut, je crois qu'il y a pas mal de gens qui se débarassent simplement de CPSBlog pour faire tourner leur CPS dans lxml (ceci date d'une époque où l'installation de lmxl était plus difficile).

Ui, c'est d'ailleurs CPSBlog qui m'a fait penser à essayer lxml, pas ElementTree, sur le serveur que Word -> HTML faisait tomber :)

Je vais voir comment corriger mon scrubHTML : soit rajouter des « tags autorisés » à VALID_TAGS, soit, si c'est possible, remplacer les tags inconnus par des <span>...

Ok, on reste à l'écoute


Dépendance sur lxml 1.0 : mon patch s'en occupe déjà

Parfait !



2b. j'attache aussi un word_to_text.py utilisant wvware : le mettre dans PortalTransforms/transforms, modifier transforms/ __init__.py pour qu'il l'appelle, et l'ajouter sous la ZMI
On peut avoir ça aussi dans le ticket ? une source unique c'est plus simple.

Oui... Dès que j'aurai fait écrit test... Et lxml 1.1 n'est encore ni dans Debian, ni dans Ubuntu...

Hmh pour le coup ce serait pour 3.4.4, sauf si ça teste la version de lxml et fait ce qu'il faut si c'est < 1.1


Merci pour les contributions en tout cas.

Écrites contraint et forcé :)

Mais avec le sourire :-)
Quel est l'ordre de grandeur du gain au fait ?

---------
Georges Racinet,   Nuxeo SAS
Open Source Enterprise Content Management (ECM)
Web: http://www.nuxeo.com/ and http://www.nuxeo.org/ - Tel: +33 1 40 33 79 87



_______________________________________________
cps-users-fr
Adresse de la liste : [email protected]
Gestion de l'abonnement : <http://lists.nuxeo.com/mailman/listinfo/cps-users-fr>

Répondre à