Re: docx vers autre format exploitable
Le 08/12/2011 22:26, Bernard a écrit : Samy Mezani wrote: Bonjour le 06/12/2011 15:06, Bernard a écrit: rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200 Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx simples, c'est-à-dire sans mise en page complexe. Quelques décalages sont à noter mais je peux au moins récupérer le contenu. Après mes échecs avec OpenOffice - confirmés avec LibreOffice - pour la récupération de documents .docx, de nouveaux tests m'ont un peu éclairé sur la possible nature du problème. En deux mots, j'ai essayé d'ouvrir un fichier de même provenance et acabit, mais beaucoup plus petit. Et là, Ô surprise, çà a fonctionné avec LibreOffice ! Il s'agissait d'un tableau Word (format docx) d'une seule page, que j'ai donc pu récupérer et resauvegarder au format .odt puis .csv après avoir transformé le tableau en texte. Ensuite, je suis passé au second fichier de la liste, lequel faisait 165K en l'état, ce qui, une fois décompressé par unzip et analyse du répertoire généré, faisait environ 8 Mo. Eh bien ce fichier là s'est également ouvert, après environ deux minutes de moulinage. C'était également impeccable et j'ai pu resauvegarder comme précédemment précisé. Le tableau faisait 137 pages. Ensuite, passage au troisième fichier, de taille 231 Ko, c'est à dire à peine 50% plus gros que le précédent. C'estoit le fichier que j'avais essayé en premier. Et là Bernique ! Après 133 minutes, soit plus de deux heures, çà moulinait toujours et j'ai du faire un killall pour arrèter le processus. Quant au dernier fichier, d'une taille de 248 Ko, même résultat : toujours rien après 175 minutes, c'est à dire près de trois heures (il ne s'agissait donc pas d'un unique fichier possiblement corrompu ; il semble bien que çà échoue à partir d'une taille limite) Si le fichier n'est pas confidentiel ou privé, tu peux ouvrir un rapport de bug sur le bugzilla de LibreOffice : https://bugs.freedesktop.org Il y a peut être quelque chose à améliorer. -- == | FRÉDÉRIC MASSOT | | http://www.juliana-multimedia.com | | mailto:frede...@juliana-multimedia.com | ===Debian=GNU/Linux=== -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/4ee1cce4.8000...@juliana-multimedia.com
Re: docx vers autre format exploitable
Samy Mezani wrote: Bonjour le 06/12/2011 15:06, Bernard a écrit: rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200 Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx simples, c'est-à-dire sans mise en page complexe. Quelques décalages sont à noter mais je peux au moins récupérer le contenu. Après mes échecs avec OpenOffice - confirmés avec LibreOffice - pour la récupération de documents .docx, de nouveaux tests m'ont un peu éclairé sur la possible nature du problème. En deux mots, j'ai essayé d'ouvrir un fichier de même provenance et acabit, mais beaucoup plus petit. Et là, Ô surprise, çà a fonctionné avec LibreOffice ! Il s'agissait d'un tableau Word (format docx) d'une seule page, que j'ai donc pu récupérer et resauvegarder au format .odt puis .csv après avoir transformé le tableau en texte. Ensuite, je suis passé au second fichier de la liste, lequel faisait 165K en l'état, ce qui, une fois décompressé par unzip et analyse du répertoire généré, faisait environ 8 Mo. Eh bien ce fichier là s'est également ouvert, après environ deux minutes de moulinage. C'était également impeccable et j'ai pu resauvegarder comme précédemment précisé. Le tableau faisait 137 pages. Ensuite, passage au troisième fichier, de taille 231 Ko, c'est à dire à peine 50% plus gros que le précédent. C'estoit le fichier que j'avais essayé en premier. Et là Bernique ! Après 133 minutes, soit plus de deux heures, çà moulinait toujours et j'ai du faire un killall pour arrèter le processus. Quant au dernier fichier, d'une taille de 248 Ko, même résultat : toujours rien après 175 minutes, c'est à dire près de trois heures (il ne s'agissait donc pas d'un unique fichier possiblement corrompu ; il semble bien que çà échoue à partir d'une taille limite) J'attends vos commentaires. Est-ce qu'il manquerait l'activation d'un système de fichiers temporaires permettant au logiciel de travailler en swap dans les cas où la mémoire est insuffisante ? Sur ce système, il semble que je dispose de quelque chose comme 2 Go de RAM. -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/4ee12b7f.3050...@teaser.fr
Re: docx vers autre format exploitable
On Thu, 08 Dec 2011 22:26:23 +0100 Bernard bdebr...@teaser.fr wrote: Quant au dernier fichier, d'une taille de 248 Ko, même résultat : toujours rien après 175 minutes, c'est à dire près de trois heures (il ne s'agissait donc pas d'un unique fichier possiblement corrompu ; il semble bien que çà échoue à partir d'une taille limite) J'attends vos commentaires. Est-ce qu'il manquerait l'activation d'un système de fichiers temporaires permettant au logiciel de travailler en swap dans les cas où la mémoire est insuffisante ? Sur ce système, il semble que je dispose de quelque chose comme 2 Go de RAM. Pas spécialement, il semble que cela soit un process par itérations sensiblement comparable à ce que ferait un tri bubble où la progression du temps de traitement est directement proportionnelle au carré du Nb d'éléments. C'est soit un défaut d'intégration, soit une obligation, auquel cas ça limitera toujours la taille max d'un .docx traitable. -- ... the MYSTERIANS are in here with my CORDUROY SOAP DISH!! -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/20111209072314.12f90aab@anubis.defcon1
Re: docx vers autre format exploitable
Le Tue, 06 Dec 2011 21:10:01 +0100, Bernard Schoenacker a écrit : j'ai déjà eu quelques document docx et j'ai simplement décompacté l'archive pour en sortir les données textuelles en général il s'agit d'un volume.zip je confirme. mais il est tellement plus simple d'utiliser libreoffice :-)) -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/4edf2485$0$25899$426a3...@news.free.fr
Re: docx vers autre format exploitable
Le 07 Dec 2011 08:32:05 GMT, moi-meme chie...@free.fr a écrit : Le Tue, 06 Dec 2011 21:10:01 +0100, Bernard Schoenacker a écrit : j'ai déjà eu quelques document docx et j'ai simplement décompacté l'archive pour en sortir les données textuelles en général il s'agit d'un volume.zip je confirme. mais il est tellement plus simple d'utiliser libreoffice :-)) bonjour, attention, il n'estr pas toujours possible d'avoir libreoffice sous la main : cli + ncusres résultat, il faut connaîtres les différentes métodes pouvant servir à obtenir le document ( format texte ) ... reste à voir comment remettre en forme un tableur ... slt bernard -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/20111207100308.3a46bd17.bernard.schoenac...@free.fr
Re: docx vers autre format exploitable
Le 07/12/2011 05:03, Bernard Schoenacker a écrit : Le 07 Dec 2011 08:32:05 GMT, moi-meme chie...@free.fr a écrit : mais il est tellement plus simple d'utiliser libreoffice :-)) Ça dépend du nombre de document à convertir… attention, il n'estr pas toujours possible d'avoir libreoffice sous la main : cli + ncusres résultat, il faut connaîtres les différentes métodes pouvant servir à obtenir le document ( format texte ) ... unoconv permet de faire les conversions de formats pris en charge par libreoffice en ligne de commande. Amicalement David signature.asc Description: OpenPGP digital signature
docx vers autre format exploitable
Bonjour à tous, Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer sérieusement les Linuxiens. Il s'agit du nouveau format 'docx'. A la lecture des documents trouvés dans les archives des listes Debian, ou via Google, j'ai trouvé plusieurs solutions, lesquelles paraissent loin de satisfaire tout le monde ; nombreux sont ceux qui y ont consacré de nombreuses heures sans trouver de solution qui les satisfassent, sauf à faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les documents et les resauvegarder en .doc ou autre. Pour ma part, je dispose de OO 2.4 sous Lenny... Là, vous allez vous rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200 Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top' me révèle alors que 'soffice.bin' tourne toujours et accapare 100% de la CPU avec 5.9% de la mémoire vive. J'ai essayé sur plusieurs fichiers, avec toujours le même résultat. La seule façon d'en sortir est de faire un KILL sur le PID de soffice. Alors, après une recherche via Google, j'ai trouvé un outil en ligne à l'adresse suivante : http://www.conv2pdf.com qui m'a permis de récupérer ledit fichier .docx au format pdf... A ceci près que le fichier pdf obtenu, je ne puis rien en faire. Il s'agit d'un tableau, que je souhaite récupérer au format csv (champs séparés par des point virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai bien utilisé pdf2txt, mais çà m'a délivré un fichier texte parfaitement inexploitable (champs séparés non par des tab ou points virgules etc... mais par de simples espaces, sans compter que ce qui devrait être des titres de colonnes sont en ligne de texte, et autres détails qui rendent le texte parfaitement inexploitable pour mon projet. Existerait il un outil sous Linux qui convertisse les pdf en autre chose qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier .docx et le resauvegarder en un format exploitable ? Merci d'avance pour votre aide. Bernard -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/4ede2164.1070...@teaser.fr
Re: docx vers autre format exploitable
Bernard a écrit : Existerait il un outil sous Linux qui convertisse les pdf en autre chose qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier .docx et le resauvegarder en un format exploitable ? Dans ce genre de cas, je crois qu'une bonne solution (si elle est possible) serait de demander à l'auteur du fichier docx une version txt ou autre, surtout s'il s'agit de données tabulées. Le pire c'est que docx est décrit dans une norme iso, mais que dans la pratique, il paraît bien difficile d'en faire quelque chose. Pas mal d'utilisateurs Windows autour de moi ont aussi ce problème. Il existe aussi le très bon antiword, et peut être qu'il supporte le docx. Nicolas -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/4ede2aeb.3080...@yahoo.fr
Re: docx vers autre format exploitable
Bonjour le 06/12/2011 15:06, Bernard a écrit: rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200 Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx simples, c'est-à-dire sans mise en page complexe. Quelques décalages sont à noter mais je peux au moins récupérer le contenu. Existerait il un outil sous Linux qui convertisse les pdf en autre chose qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier Tu as essayé d'ouvrir le pdf dans LibreOffice Impress voire Inkscape ? Cordialement, Samy -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/4ede2e00.7000...@wanadoo.fr
Re: docx vers autre format exploitable
Bonjour, Je te conseil le convertisseur suivant : http://katana.oooninja.com/w/ Ou bien de migrer vers LibreOffice 3.3 ou + qui support relativement bien le format docx. ++ Mourad Le 06/12/2011 15:06, Bernard a écrit : Bonjour à tous, Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer sérieusement les Linuxiens. Il s'agit du nouveau format 'docx'. A la lecture des documents trouvés dans les archives des listes Debian, ou via Google, j'ai trouvé plusieurs solutions, lesquelles paraissent loin de satisfaire tout le monde ; nombreux sont ceux qui y ont consacré de nombreuses heures sans trouver de solution qui les satisfassent, sauf à faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les documents et les resauvegarder en .doc ou autre. Pour ma part, je dispose de OO 2.4 sous Lenny... Là, vous allez vous rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200 Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top' me révèle alors que 'soffice.bin' tourne toujours et accapare 100% de la CPU avec 5.9% de la mémoire vive. J'ai essayé sur plusieurs fichiers, avec toujours le même résultat. La seule façon d'en sortir est de faire un KILL sur le PID de soffice. Alors, après une recherche via Google, j'ai trouvé un outil en ligne à l'adresse suivante : http://www.conv2pdf.com qui m'a permis de récupérer ledit fichier .docx au format pdf... A ceci près que le fichier pdf obtenu, je ne puis rien en faire. Il s'agit d'un tableau, que je souhaite récupérer au format csv (champs séparés par des point virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai bien utilisé pdf2txt, mais çà m'a délivré un fichier texte parfaitement inexploitable (champs séparés non par des tab ou points virgules etc... mais par de simples espaces, sans compter que ce qui devrait être des titres de colonnes sont en ligne de texte, et autres détails qui rendent le texte parfaitement inexploitable pour mon projet. Existerait il un outil sous Linux qui convertisse les pdf en autre chose qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier .docx et le resauvegarder en un format exploitable ? Merci d'avance pour votre aide. Bernard -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/4ede2d7c.4060...@nativobject.net
Re: docx vers autre format exploitable
'lut, Existerait il un outil sous Linux qui convertisse les pdf en autre chose qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier ..docx et le resauvegarder en un format exploitable ? Pour l'instant, aucun fichier docx n'a résisté à LibreOffice 3.4.4 (fork d'OO) que j'installe sur les postes utilisateurs. Merci d'avance pour votre aide. De rien. Je précise que je demande systématiquement un fichier dans un format pdf ou txt à tout interlocuteur m'envoyant les bouses de M$ en signalant que je ne dispose pas des 700€ nécessaires à l'achat de la licence. Par ailleurs, je leur fait un petit laius sur Open Office, formats ouverts versus fermés, toussa. Ok, 90% des interlocuteurs s'en contre-foutent. Mais je table sur les 10% restant ;) a+ f. -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/4ede3573$0$2834$426a7...@news.free.fr
Re: docx vers autre format exploitable
Le Tue, 06 Dec 2011 16:10:02 +0100, Samy Mezani a écrit : Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx simples, c'est-à-dire sans mise en page complexe. Quelques décalages sont à noter mais je peux au moins récupérer le contenu. +1 -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/4ede6c6b$0$20611$426a7...@news.free.fr
Re: docx vers autre format exploitable
Le 06 Dec 2011 19:26:35 GMT, moi-meme chie...@free.fr a écrit : Le Tue, 06 Dec 2011 16:10:02 +0100, Samy Mezani a écrit : Je n'ai pas de souci avec LibreOffice 3.4.4 sous Sid. Je reçois des docx simples, c'est-à-dire sans mise en page complexe. Quelques décalages sont à noter mais je peux au moins récupérer le contenu. +1 bonjour, j'ai déjà eu quelques document docx et j'ai simplement décompacté l'archive pour en sortir les données textuelles en général il s'agit d'un volume.zip slt bernard -- Lisez la FAQ de la liste avant de poser une question : http://wiki.debian.org/fr/FrenchLists Pour vous DESABONNER, envoyez un message avec comme objet unsubscribe vers debian-user-french-requ...@lists.debian.org En cas de soucis, contactez EN ANGLAIS listmas...@lists.debian.org Archive: http://lists.debian.org/20111206210140.0a2c1f3b.bernard.schoenac...@free.fr