Poate vorbesc prostii dar cu iconv ai incercat? $ echo "șlițuleț" | iconv -t ISO8859-1//TRANSLIT slitulet
2016-06-10 15:35 GMT+03:00 Adrian Popa <adrian.popa...@gmail.com>: > Am omis să spun că inputul arată în halul ăsta (văzut cu less): > > United World Chart single-ul a atins pozi<C8><9B>ia cu num<C4><83>rul 7, > acumul<C3><A2>nd peste 2,25 > > Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok. > > 2016-06-10 15:24 GMT+03:00 Adrian Popa <adrian.popa...@gmail.com>: > > > Salutare, > > > > Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) > > pentru care vreau să înlocuiesc diacriticele cu caracterele echivalente > > ASCII. Cu siguranță am și alte caractere UTF8 care nu sunt diacritice și > > care nu au corespondent ASCII, așa că ele pot fi înlocuite cu "". > > > > Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă > să > > convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional > > "tr '/ăâșțî/aasti/'" presupun că nu o să meargă. > > > > Aveți ceva recomandări despre cum aș putea trata problema făra să > > reinventez roata (de ex cu script > http://www.perlmonks.org/?node_id=963341 > > ) > > > > Multumesc, > > Adrian > > > _______________________________________________ > RLUG mailing list > RLUG@lists.lug.ro > http://lists.lug.ro/mailman/listinfo/rlug > _______________________________________________ RLUG mailing list RLUG@lists.lug.ro http://lists.lug.ro/mailman/listinfo/rlug