[progliste] Re: DÃ©-HTML-iiser du texte

Jean-FranÃ§ois Colas Mon, 10 Apr 2017 11:41:56 -0700

Hello Abdel,

J'ai pu faire un petit essai. C'est pour moi une trÃ¨s bonne base dedÃ©part. Je n'ai pas le temps de l'affiner d'ici demain soir, Ã§a repoussela suite de l'histoire au moment de ma reprise du boulot la semaineprochaine. Entre autres choses que je devrai me faire:- Supprimer toute partie entre <head> et </head>, ainsi que les Ã©lÃ©mentsde CSS ou je ne sais quoi, faut que je voie Ã§a de plus prÃ¨s.- Remplacer les entitÃ©s caractÃ¨res, en tout cas un certain nombre comme’ pour l'apostrophe, Ã©galement le   incontournable, etc.

Mais tout Ã§a me semble Ã ma portÃ©e, si je parviens Ã revenir en forme auboulot lol.


Encore un grand merci pour ce coup de pouce.

J.-F.


Le 06/04/2017 22:47, Abdel a Ã©crit :


Coucou JF,

En complÃ©ment de la rÃ©ponse de Math, si j'ai bien sÃ»r biencompris ta
demande, je te suggÃ¨re une solution.

Tu dis :

Je me souviens bien d'un message qui me nargue, et qui parle de Pandoc
pour dÃ©-html-iser simplement un document... Je ne suis pas certain
malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin.

Ma rÃ©ponse :

Pandoc pour dÃ©-html-iser un document?

En fait, en matiÃ¨re de conversion de format, pandoc peut te permettre
2 chose sur du HTML :

 1. Convertir le document en un autre format;
 2. Si le fichier html a Ã©tÃ© gÃ©nÃ©rÃ© avec Pandoc,retrouver le code du
    fichier md qui l'a gÃ©nÃ©rÃ©, c'est le code que Math t'asenvoyÃ©.



Remarque :

Pour la seconde conversion, tu peux mÃªme la faire sur des fichiers
html qui n'ont pas Ã©tÃ© gÃ©nÃ©rÃ©s avec Pandoc, maisle rÃ©sultat sur le
fichier md gÃ©nÃ©rÃ© ne permettra pas de reconstruire exactement le
document html de base.

Mais en lisant et relisant ton mail, sauf erreur de ma part, on dirait
que ces conversions ne sont pas vraiment ce que tu souhaites.

Si j'ai bien compris, tu souhaiterais pouvoir supprimer des balises
doubles, comme (p, h1, etc.), ou des balises uniques comme (<br />).

Tu souhaiterais avoir la possibilitÃ© de pouvoir dÃ©cider toi-mÃªme
quelles seraient les balises que tu souhaiterais enlever, mais garder
le texte qu'elles contiennent, dans le cas des balises doubles.

Est-ce bien cela, oÃ¹ suis-je Ã  cÃ´tÃ© des mes godasses lol?

Si c'est bien cela, au lieu d'utiliser des modules externes Ã  Python,
comme le cÃ©lÃ¨bre BeautifulSoup
<https://docs.python.org/3/library/html.parser.html>, html.parser
<http://apprendre-python.com/page-beautifulsoup-html-parser-python-library-xml>
, etc., je t'oriente plutÃ´t vers les regexp, qui font trÃ¨s bience
travail.

Tu trouveras en PJ, un petit module 6pad++.py, avec une fonction
filterHTML, qui s'exÃ©cute par le raccourci-clavier CTRL+F10.

AprÃ¨s avoir collÃ© le fichier 6pad++.py dans ton rÃ©pertoireoÃ¹ se situe
l'exÃ©cutable de 6pad++, ouvres 6pad++ puis, avec CTRL+O, ouvres un
fichier html que tu souhaiterais modifier.

La commande CTRL+F10 gÃ©nÃ¨rera alors, dans le mÃªme rÃ©pertoire, un
fichier filterHtml.html, avec les balises <p>, les balises de <h1> Ã 
<h6>, ainsi que les balises <br /> qui auront Ã©tÃ© effacÃ©es, en
conservant le texte contenu dans les balises doubles bien entendu.

Je t'ai commentÃ© le code, pour que tu puisses voir que grÃ¢ce aux
regexp, tout est faisable, lol !

La regexp compilÃ©e rg capture les balises p et h1 Ã  6 ouvrante et
fermantes, mais tu pourras en ajouter si tu veux, selon les besoins,
en les mettant dans la ccapture \1, qui est aussi une rÃ©fÃ©rencearriÃ¨re.

rg = re.compile(r'(?:(?i)<(h\d|p)>(.*?)(</\1>))', re.S)

La regexp rg1 matche les balises <br />.

rg1 = re.compile('<br.*>')

La regexp rg2 matche toutes les balises html, sans exception, au cas
oÃ¹ on en aurait besoin.

Elle a Ã©tÃ© mise en commentaire.

#rg2 = re.compile('<[^>]*>')

La regexp rg3 match tous les sauts de lignes, au cas oÃ¹.

rg3 = re.compile(r'^\r\n', re.M)

Ensuite, viennent les rg.sub, rg1.sub, etc., qui vont exÃ©cuter les
remplacements...

Teste et dis-moi si c'est bien ce que tu voulais...

Merci Ã  toi.

Bien amicalement,
Abdel.


Le 05/04/2017 Ã  22:20, Jean-FranÃ§ois Colas a Ã©crit :

Hello la ML,

Je me souviens bien d'un message qui me nargue, et qui parle de
Pandoc pour dÃ©-html-iser simplement un document... Je ne suis pas
certain malgrÃ© tout que ce soit tout Ã  fait ce dont j'aurais besoin.
Il me faudrait quelque chose capable de traiter tout, OU PARTIE, d'un
document.

Existerait-il alors peut-Ãªtre quelque chose en Python qui pourrait me
permettre d'envisager la rÃ©cupÃ©ration du contenu des balises, tout en
me dÃ©barrassant des balises elles-mÃªmes, afin de faire un
dÃ©-html-iseur sans prÃ©tention, hormis celle de se glisser dansdes
utilitaires personnels pour 6Pad? Si malgrÃ© tout je pouvais
discriminer certaines balises, pour autant que j'y songe rapidement,
<br> ou <p> ou peut-Ãªtre les <h1> Ã  <h6>, mais pas Ã©normÃ©ment au-delÃ .

Merci,
J.-F.


Progliste :
Pour se dï¿½sinscrire de la liste :
mailto:progliste-requ...@ml.free.fr?subject=unsubscribe

Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/

Je vous rappelle que les piï¿½ces jointe sont activï¿½s leurtaille est
limitï¿½ ï¿½ 2 MO
Pour accï¿½der aux fichiers de la liste
http://outils.archive-host.com/partage.php?id=2Qar9Hy6ftzr
Ou en utilisant la nouvelle page de partage :
http://outils-n.archive-host.com/partage-fm0m7b947vglikp9Efpso94gt
Pour y ajouter des fichiers demandez-moi le ou sur la liste ou en
privï¿½, je vous rï¿½pondrez en privï¿½.


Progliste :
Pour se dï¿½sinscrire de la liste : 
mailto:progliste-requ...@ml.free.fr?subject=unsubscribe

Pour voir les archives de la liste :
http://www.mail-archive.com/progliste@ml.free.fr/

Je vous rappelle que les pièces jointe sont activés leur taille est limité à 2 MO

Pour accï¿½der aux fichiers de la liste
http://outils.archive-host.com/partage.php?id=2Qar9Hy6ftzr
Ou en utilisant la nouvelle page de partage :
http://outils-n.archive-host.com/partage-fm0m7b947vglikp9Efpso94gt
Pour y ajouter des fichiers demandez-moi le ou sur la liste ou en privï¿½, je 
vous rï¿½pondrez en privï¿½.

[progliste] Re: DÃ©-HTML-iiser du texte

Répondre à