Frédéric Glorieux wrote:


  Bonjour,

J'ai besoin d'extraire au moins le texte de fichiers word et pdf. Il faut craindre que le XML généré se résumera d'abord à un seul élément racine du genre <text/>.

Est-ce que cette sorte de generators auraient déjà été faits ou pensés? Pour l'instant je vois 2 librairies sur lesquelles s'appuyer, <http://www.textmining.org> et <http://www.pdfbox.org/>. Est-ce qu'il y aurait mieux ?


En opensource, c'est à ma connaissance ce qui revient le plus souvent sur ces sujets.

Sylvain

--
Sylvain Wallez                        Anyware Technologies
http://apache.org/~sylvain            http://anyware-tech.com
Apache Software Foundation Member     Research & Technology Director


---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:[EMAIL PROTECTED]
Autres commandes : mailto:[EMAIL PROTECTED]

Répondre à