On Wed, 2008-02-06 at 14:29 +0200, Eleni Maria Stea wrote:
> Στις Wednesday 06 February 2008 12:38:24 γράψατε:
> > On Wed, 2008-02-06 at 10:01 +0200, Costas Drossos wrote:
> > > O/H Eleni Maria Stea έγραψε:
> > > > Καλησπέρα σας,
> > > >
> > > > Μήπως κάποιος από σας γνωρίζει αν υπάρχει εργαλείο που να μετατρέπει
> > > > κειμένο από .tex μορφή σε .odt, doc ή html; (ή σε κάποια άλλη μορφή που
> > > > να μπορώ να μεταφέρω σε open office) Δοκίμασα να φτιάξω .ps ή .pdf και
> > > > να κάνω copy-paste αλλά στην επικόλληση μου βγάζει κάτι
> > > > ακαταλαβίστικους χαρακτήρες..
> > > >
> > > > Ευχαριστώ πολύ!
> > >
> > > Υπάρχει το LaTeX2HTML translator. Επίσης υπάρχει ενα προγραμματάκι
> > > PDF2Word με το οποίο από το PDF σου παράγεις ενα DOC και στη συνάχεια το
> > > εισάγεις στο OpenOffice.
> > >
> > > για περισσότερα για την πρώτη λύση δες το Μ. Goossens & S. Rahtz The
> > > LaTeX Web Companion, Addison wesley 1999.
> >
> > Είναι το πρόβλημα με την επικόλληση κειμένου στα ελληνικά (από PDF σε π.χ.
> > Κειμενογράφο); Ή το αρχικό κείμενο .tex έχει ελληνικά;
> >
> > Σίμος
> 
> Και τα δύο, το κείμενο tex είναι γραμμένο στα ελληνικά (iso) και το pdf που 
> παράγεται από το tex είναι επίσης στα ελληνικά. Όταν κάνω copy από το pdf και 
> paste σε κειμενογράφο, οι χαρακτήρες είναι ακατανόητοι. Θέλω να μεταφέρω απλά 
> το κείμενο στο oowriter με κάποιο τρόπο... δοκίμασα να κάνω και import σε 
> kwriter όλο το pdf αλλά τα ίδια... (με τα άλλα pdf δεν έχει πρόβλημα το 
> copy/paste μόνο με το συγκεκριμένο..)

Το παράδειγμα που έστειλε ο Κώστας φαίνεται να έκανε αρκετά καλή
δουλειά. Κώστα, ποιο από τα εργαλεία που αναφέρεις χρησιμοποίησες για τη
δουλειά αυτή;

Αν έχεις αρχεία .tex με παρωχημένη κωδικοποίηση iso-8859-7, τότε πριν
εκτελέσεις την μετατροπή σε HTML, κτλ, είναι καλό να μετατρέψεις το
αρχικό .tex σε κωδικοποίηση UTF-8. Π.χ.

$ iconv -f iso-8859-7 -t utf-8 < oldfile.tex > newfile-utf8.tex

Όταν κάνεις αντιγραφή και επικόλληση από ένα PDF και η κωδικοποίηση του
κειμένου (στο PDF) είναι iso-8859-7, τότε στην επικόλληση υπάρχει
πρόβλημα· όλα τα προγράμματα του Ubuntu περιμένουν στην επικόλληση
κείμενο σε κωδικοποίηση UTF-8, ενώ αν δουν ότι η αρχική κωδικοποίηση δεν
είναι UTF-8, τότε κάνουν αυτόματη μετατροπή (α λα iconv) από iso-8859-1
προς UTF-8. Πιστεύω ότι πρέπει να υπάρχει κάποια επιλογή κάπου στο /etc
που να αλλάζεις αυτήν την αρχική κωδικοποίηση.

Έτσι, στο παράδειγμα του Κώστα, αν κάνεις αντιγραφή και επικόλληση από
το PDF, θα έχεις το παρακάτω αποτέλεσμα,

Ôï óýíôïìï éóôïñéêü óçìåßùìá ðïõ áêïëïõèåß, Ý÷åé ùò óôü÷ï, íá äþóåé êÜ-
ðïéåò éóôïñéêÝò óõíôåôáãìÝíåò, ãéá ôïí ðñïóáíáôïëéóìü ôïõ áíáãíþóôç êáé
äåí Ý÷åé ôçí ðñüèåóç éóôïñéêÞò ìåëÝôçò. Èá ðåñéïñéóôïýìå óôá £äõôéêÜ Ìá-
èçìáôéêܤ. Ãéá ôá ìç äõôéêÜ ÌáèçìáôéêÜ, áëëÜ êáé ãéá Üëëá óõíáöÞ èÝìáôá,
âë. ôï [99].

Δεν είναι κινέζικα, αλλά το αποτέλεσμα της μετατροπής από iso-8859-1
προς utf-8. Οι παραπάνω χαρακτήρες ανήκουν στο μπλοκ Latin Extended του
Unicode.

Για να διορθωθεί το παραπάνω κείμενο, πρέπει να το βάλεις σε ένα αρχείο
και 
1) να το μετατρέψεις πίσω, από utf-8 προς iso-8859-1
2) να το μετατρέψεις ξανά ξεκινώντας τώρα από iso-8859-7 προς utf-8.

Σίμος
http://blogs.gnome.org/simos



-- 
Ubuntu-gr mailing list
Ubuntu-gr@lists.ubuntu.com
https://lists.ubuntu.com/mailman/listinfo/ubuntu-gr

Απαντηση