Bonjour,

J'ai besoin d'extraire au moins le texte de fichiers word et pdf. Il faut craindre que le XML généré se résumera d'abord à un seul élément racine du genre <text/>.

Est-ce que cette sorte de generators auraient déjà été faits ou pensés? Pour l'instant je vois 2 librairies sur lesquelles s'appuyer, <http://www.textmining.org> et <http://www.pdfbox.org/>. Est-ce qu'il y aurait mieux ?


--
Frédéric Glorieux ("AJLSM", <http://ajlsm.com>)



---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:[EMAIL PROTECTED]
Autres commandes : mailto:[EMAIL PROTECTED]

Répondre à