Re: docx vers autre format exploitable

2011-12-09 Par sujet Frédéric Massot

Le 08/12/2011 22:26, Bernard a écrit :

Samy Mezani wrote:

Bonjour

le 06/12/2011 15:06, Bernard a écrit:

rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200


Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des
docx simples, c'est-à-dire sans mise en page complexe. Quelques
décalages sont à noter mais je peux au moins récupérer le contenu.



Après mes échecs avec OpenOffice - confirmés avec LibreOffice - pour la
récupération de documents .docx, de nouveaux tests m'ont un peu éclairé
sur la possible nature du problème. En deux mots, j'ai essayé d'ouvrir
un fichier de même provenance et acabit, mais beaucoup plus petit. Et
là, Ô surprise, çà a fonctionné avec LibreOffice ! Il s'agissait d'un
tableau Word (format docx) d'une seule page, que j'ai donc pu récupérer
et resauvegarder au format .odt puis .csv après avoir transformé le
tableau en texte. Ensuite, je suis passé au second fichier de la liste,
lequel faisait 165K en l'état, ce qui, une fois décompressé par unzip et
analyse du répertoire généré, faisait environ 8 Mo. Eh bien ce fichier
là s'est également ouvert, après environ deux minutes de moulinage.
C'était également impeccable et j'ai pu resauvegarder comme précédemment
précisé. Le tableau faisait 137 pages. Ensuite, passage au troisième
fichier, de taille 231 Ko, c'est à dire à peine 50% plus gros que le
précédent. C'estoit le fichier que j'avais essayé en premier. Et là
Bernique ! Après 133 minutes, soit plus de deux heures, çà moulinait
toujours et j'ai du faire un killall pour arrèter le processus. Quant au
dernier fichier, d'une taille de 248 Ko, même résultat : toujours rien
après 175 minutes, c'est à dire près de trois heures (il ne s'agissait
donc pas d'un unique fichier possiblement corrompu ; il semble bien que
çà échoue à partir d'une taille limite)


Si le fichier n'est pas confidentiel ou privé, tu peux ouvrir un rapport 
de bug sur le bugzilla de LibreOffice :


https://bugs.freedesktop.org

Il y a peut être quelque chose à améliorer.


--
==
|  FRÉDÉRIC MASSOT   |
| http://www.juliana-multimedia.com  |
|   mailto:frede...@juliana-multimedia.com   |
===Debian=GNU/Linux===

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/4ee1cce4.8000...@juliana-multimedia.com



Re: docx vers autre format exploitable

2011-12-08 Par sujet Bernard

Samy Mezani wrote:

Bonjour

le 06/12/2011 15:06, Bernard a écrit:

rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200


Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des 
docx simples, c'est-à-dire sans mise en page complexe. Quelques 
décalages sont à noter mais je peux au moins récupérer le contenu.



Après mes échecs avec OpenOffice - confirmés avec LibreOffice - pour la 
récupération de documents .docx, de nouveaux tests m'ont un peu éclairé 
sur la possible nature du problème. En deux mots, j'ai essayé d'ouvrir 
un fichier de même provenance et acabit, mais beaucoup plus petit. Et 
là, Ô surprise, çà a fonctionné avec LibreOffice !  Il s'agissait d'un 
tableau Word (format docx) d'une seule page, que j'ai donc pu récupérer 
et resauvegarder au format .odt puis .csv après avoir transformé le 
tableau en texte. Ensuite, je suis passé au second fichier de la liste, 
lequel faisait 165K en l'état, ce qui, une fois décompressé par unzip et 
analyse du répertoire généré, faisait environ 8 Mo. Eh bien ce fichier 
là s'est également ouvert, après environ deux minutes de moulinage. 
C'était également impeccable et j'ai pu resauvegarder comme précédemment 
précisé. Le tableau faisait 137 pages. Ensuite, passage au troisième 
fichier, de taille 231 Ko, c'est à dire à peine 50% plus gros que le 
précédent. C'estoit le fichier que j'avais essayé en premier. Et là 
Bernique !  Après 133 minutes, soit plus de deux heures, çà moulinait 
toujours et j'ai du faire un killall pour arrèter le processus. Quant au 
dernier fichier, d'une taille de 248 Ko, même résultat : toujours rien 
après 175 minutes, c'est à dire près de trois heures (il ne s'agissait 
donc pas d'un unique fichier possiblement corrompu ; il semble bien que 
çà échoue à partir d'une taille limite)


J'attends vos commentaires. Est-ce qu'il manquerait l'activation d'un 
système de fichiers temporaires permettant au logiciel de travailler en 
swap dans les cas où la mémoire est insuffisante ?  Sur ce système, il 
semble que je dispose de quelque chose comme 2 Go de RAM.


--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/4ee12b7f.3050...@teaser.fr



Re: docx vers autre format exploitable

2011-12-08 Par sujet Jean-Yves F. Barbier
On Thu, 08 Dec 2011 22:26:23 +0100
Bernard bdebr...@teaser.fr wrote:

 Quant au 
 dernier fichier, d'une taille de 248 Ko, même résultat : toujours rien 
 après 175 minutes, c'est à dire près de trois heures (il ne s'agissait 
 donc pas d'un unique fichier possiblement corrompu ; il semble bien que 
 çà échoue à partir d'une taille limite)
 
 J'attends vos commentaires. Est-ce qu'il manquerait l'activation d'un 
 système de fichiers temporaires permettant au logiciel de travailler en 
 swap dans les cas où la mémoire est insuffisante ?  Sur ce système, il 
 semble que je dispose de quelque chose comme 2 Go de RAM.

Pas spécialement, il semble que cela soit un process par itérations
sensiblement comparable à ce que ferait un tri bubble où la
progression du temps de traitement est directement proportionnelle
au carré du Nb d'éléments.

C'est soit un défaut d'intégration, soit une obligation, auquel cas
ça limitera toujours la taille max d'un .docx traitable.

-- 
... the MYSTERIANS are in here with my CORDUROY SOAP DISH!!

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/20111209072314.12f90aab@anubis.defcon1



Re: docx vers autre format exploitable

2011-12-07 Par sujet moi-meme
Le Tue, 06 Dec 2011 21:10:01 +0100, Bernard Schoenacker a écrit :

   j'ai déjà eu quelques document docx et j'ai simplement décompacté
   l'archive pour en sortir les données textuelles 
 
   en général il s'agit d'un volume.zip

je confirme.
mais il est tellement plus simple d'utiliser libreoffice :-))

-- 
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/4edf2485$0$25899$426a3...@news.free.fr



Re: docx vers autre format exploitable

2011-12-07 Par sujet Bernard Schoenacker
Le 07 Dec 2011 08:32:05 GMT,
moi-meme chie...@free.fr a écrit :

 Le Tue, 06 Dec 2011 21:10:01 +0100, Bernard Schoenacker a écrit :
 
  j'ai déjà eu quelques document docx et j'ai simplement
  décompacté l'archive pour en sortir les données textuelles 
  
  en général il s'agit d'un volume.zip
 
 je confirme.
 mais il est tellement plus simple d'utiliser libreoffice :-))
 
bonjour,


attention, il n'estr pas toujours possible d'avoir libreoffice
sous la main : cli + ncusres 


résultat, il faut connaîtres les différentes métodes pouvant
servir à obtenir le document ( format texte ) ...


reste à voir comment remettre en forme un tableur ...


slt
bernard

-- 
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: 
http://lists.debian.org/20111207100308.3a46bd17.bernard.schoenac...@free.fr



Re: docx vers autre format exploitable

2011-12-07 Par sujet David Prévot
Le 07/12/2011 05:03, Bernard Schoenacker a écrit :
 Le 07 Dec 2011 08:32:05 GMT,
 moi-meme chie...@free.fr a écrit :

 mais il est tellement plus simple d'utiliser libreoffice :-))

Ça dépend du nombre de document à convertir…

   attention, il n'estr pas toujours possible d'avoir libreoffice
   sous la main : cli + ncusres 
 
 
   résultat, il faut connaîtres les différentes métodes pouvant
   servir à obtenir le document ( format texte ) ...

unoconv permet de faire les conversions de formats pris en charge par
libreoffice en ligne de commande.

Amicalement

David



signature.asc
Description: OpenPGP digital signature


docx vers autre format exploitable

2011-12-06 Par sujet Bernard

Bonjour à tous,

Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer 
sérieusement les Linuxiens. Il s'agit du nouveau format 'docx'. A la 
lecture des documents trouvés dans les archives des listes Debian, ou 
via Google, j'ai trouvé plusieurs solutions, lesquelles paraissent loin 
de satisfaire tout le monde ; nombreux sont ceux qui y ont consacré de 
nombreuses heures sans trouver de solution qui les satisfassent, sauf à 
faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les 
documents et les resauvegarder en .doc ou autre.


Pour ma part, je dispose de OO 2.4 sous Lenny... Là, vous allez vous 
rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de 
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les 
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir 
s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200 
Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top' 
me révèle alors que 'soffice.bin' tourne toujours et accapare 100% de la 
CPU avec 5.9% de la mémoire vive. J'ai essayé sur plusieurs fichiers, 
avec toujours le même résultat. La seule façon d'en sortir est de faire 
un KILL sur le PID de soffice.


Alors, après une recherche via Google, j'ai trouvé un outil en ligne à 
l'adresse suivante : http://www.conv2pdf.com qui m'a permis de récupérer 
ledit fichier .docx au format pdf... A ceci près que le fichier pdf 
obtenu, je ne puis rien en faire. Il s'agit d'un tableau, que je 
souhaite récupérer au format csv (champs séparés par des point 
virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai 
bien utilisé pdf2txt, mais çà m'a délivré un fichier texte parfaitement 
inexploitable (champs séparés non par des tab ou points virgules etc... 
mais par de simples espaces, sans compter que ce qui devrait être des 
titres de colonnes sont en ligne de texte, et autres détails qui rendent 
le texte parfaitement inexploitable pour mon projet.


Existerait il un outil sous Linux qui convertisse les pdf en autre chose 
qu'en texte simple ?   Ou alors, comment ouvrir, sous Linux, un fichier 
.docx et le resauvegarder en un format exploitable ?


Merci d'avance pour votre aide.

Bernard

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/4ede2164.1070...@teaser.fr



Re: docx vers autre format exploitable

2011-12-06 Par sujet Nicolas Bercher

Bernard a écrit :
Existerait il un outil sous Linux qui convertisse les pdf en autre chose 
qu'en texte simple ?   Ou alors, comment ouvrir, sous Linux, un fichier 
.docx et le resauvegarder en un format exploitable ?


Dans ce genre de cas, je crois qu'une bonne solution (si elle est
possible) serait de demander à l'auteur du fichier docx une version txt
ou autre, surtout s'il s'agit de données tabulées.

Le pire c'est que docx est décrit dans une norme iso, mais que dans la
pratique, il paraît bien difficile d'en faire quelque chose.  Pas mal
d'utilisateurs Windows autour de moi ont aussi ce problème.

Il existe aussi le très bon antiword, et peut être qu'il supporte le
docx.

Nicolas

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/4ede2aeb.3080...@yahoo.fr



Re: docx vers autre format exploitable

2011-12-06 Par sujet Samy Mezani

Bonjour

le 06/12/2011 15:06, Bernard a écrit:

rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de
mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les
fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir
s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200


Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx 
simples, c'est-à-dire sans mise en page complexe. Quelques décalages 
sont à noter mais je peux au moins récupérer le contenu.



Existerait il un outil sous Linux qui convertisse les pdf en autre chose
qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier


Tu as essayé d'ouvrir le pdf dans LibreOffice Impress voire Inkscape ?

Cordialement,
Samy

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/4ede2e00.7000...@wanadoo.fr



Re: docx vers autre format exploitable

2011-12-06 Par sujet C. Mourad Jaber

Bonjour,

Je te conseil le convertisseur suivant : http://katana.oooninja.com/w/

Ou bien de migrer vers LibreOffice 3.3 ou + qui support relativement bien le 
format docx.

++

Mourad

Le 06/12/2011 15:06, Bernard a écrit :

Bonjour à tous,

Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer sérieusement les 
Linuxiens. Il s'agit du nouveau format 'docx'. A la lecture des documents trouvés dans 
les archives des listes Debian, ou via Google, j'ai trouvé plusieurs solutions, 
lesquelles paraissent loin de satisfaire tout le monde ; nombreux sont ceux qui y ont 
consacré de nombreuses heures sans trouver de solution qui les satisfassent, sauf à 
faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les documents et les 
resauvegarder en .doc ou autre.


Pour ma part, je dispose de OO 2.4 sous Lenny... Là, vous allez vous rhabiller, car il 
n'y a apparemment aucune possibilité. Sous le PC de mon association, j'ai OO 3.2 sous 
Squeeze, lequel est sensé ouvrir les fichiers .docx. Là dessus, mon fichier .docs fait 
mine de vouloir s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200 
Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top' me révèle alors 
que 'soffice.bin' tourne toujours et accapare 100% de la CPU avec 5.9% de la mémoire 
vive. J'ai essayé sur plusieurs fichiers, avec toujours le même résultat. La seule façon 
d'en sortir est de faire un KILL sur le PID de soffice.


Alors, après une recherche via Google, j'ai trouvé un outil en ligne à l'adresse 
suivante : http://www.conv2pdf.com qui m'a permis de récupérer ledit fichier .docx au 
format pdf... A ceci près que le fichier pdf obtenu, je ne puis rien en faire. Il s'agit 
d'un tableau, que je souhaite récupérer au format csv (champs séparés par des point 
virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai bien utilisé 
pdf2txt, mais çà m'a délivré un fichier texte parfaitement inexploitable (champs séparés 
non par des tab ou points virgules etc... mais par de simples espaces, sans compter que 
ce qui devrait être des titres de colonnes sont en ligne de texte, et autres détails qui 
rendent le texte parfaitement inexploitable pour mon projet.


Existerait il un outil sous Linux qui convertisse les pdf en autre chose qu'en texte 
simple ?   Ou alors, comment ouvrir, sous Linux, un fichier .docx et le resauvegarder en 
un format exploitable ?


Merci d'avance pour votre aide.

Bernard



--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/4ede2d7c.4060...@nativobject.net



Re: docx vers autre format exploitable

2011-12-06 Par sujet fabrice régnier

'lut,


Existerait il un outil sous Linux qui convertisse les pdf en autre chose
qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier
..docx et le resauvegarder en un format exploitable ?
Pour l'instant, aucun fichier docx n'a résisté à LibreOffice 3.4.4 
(fork d'OO) que j'installe sur les postes utilisateurs.



Merci d'avance pour votre aide.

De rien.

Je précise que je demande systématiquement un fichier dans un format pdf 
ou txt à tout interlocuteur m'envoyant les bouses de M$ en signalant que 
je ne dispose pas des 700€ nécessaires à l'achat de la licence. Par 
ailleurs, je leur fait un petit laius sur Open Office, formats ouverts 
versus fermés, toussa. Ok, 90% des interlocuteurs s'en contre-foutent. 
Mais je table sur les 10% restant ;)


a+

f.

--
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/4ede3573$0$2834$426a7...@news.free.fr



Re: docx vers autre format exploitable

2011-12-06 Par sujet moi-meme
Le Tue, 06 Dec 2011 16:10:02 +0100, Samy Mezani a écrit :

 Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx
 simples, c'est-à-dire sans mise en page complexe. Quelques décalages
 sont à noter mais je peux au moins récupérer le contenu.

+1

-- 
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: http://lists.debian.org/4ede6c6b$0$20611$426a7...@news.free.fr



Re: docx vers autre format exploitable

2011-12-06 Par sujet Bernard Schoenacker
Le 06 Dec 2011 19:26:35 GMT,
moi-meme chie...@free.fr a écrit :

 Le Tue, 06 Dec 2011 16:10:02 +0100, Samy Mezani a écrit :
 
  Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des
  docx simples, c'est-à-dire sans mise en page complexe. Quelques
  décalages sont à noter mais je peux au moins récupérer le contenu.
 
 +1
 
bonjour,

j'ai déjà eu quelques document docx et j'ai simplement décompacté
l'archive pour en sortir les données textuelles 

en général il s'agit d'un volume.zip

slt
bernard

-- 
Lisez la FAQ de la liste avant de poser une question :
http://wiki.debian.org/fr/FrenchLists

Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe
vers debian-user-french-requ...@lists.debian.org
En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org
Archive: 
http://lists.debian.org/20111206210140.0a2c1f3b.bernard.schoenac...@free.fr