Frédéric Glorieux wrote:
Bonjour,
J'ai besoin d'extraire au moins le texte de fichiers word et pdf. Il
faut craindre que le XML généré se résumera d'abord à un seul élément
racine du genre <text/>.
Est-ce que cette sorte de generators auraient déjà été faits ou
pensés? Pour l'instant je vois 2 librairies sur lesquelles s'appuyer,
<http://www.textmining.org> et <http://www.pdfbox.org/>. Est-ce qu'il
y aurait mieux ?
En opensource, c'est à ma connaissance ce qui revient le plus souvent
sur ces sujets.
Sylvain
--
Sylvain Wallez Anyware Technologies
http://apache.org/~sylvain http://anyware-tech.com
Apache Software Foundation Member Research & Technology Director
---------------------------------------------------------------------
Liste francophone Apache Cocoon -- http://cocoon.apache.org/fr/
Pour vous desinscrire : mailto:[EMAIL PROTECTED]
Autres commandes : mailto:[EMAIL PROTECTED]