Am omis să spun că inputul arată în halul ăsta (văzut cu less): United World Chart single-ul a atins pozi<C8><9B>ia cu num<C4><83>rul 7, acumul<C3><A2>nd peste 2,25
Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok. 2016-06-10 15:24 GMT+03:00 Adrian Popa <adrian.popa...@gmail.com>: > Salutare, > > Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro) > pentru care vreau să înlocuiesc diacriticele cu caracterele echivalente > ASCII. Cu siguranță am și alte caractere UTF8 care nu sunt diacritice și > care nu au corespondent ASCII, așa că ele pot fi înlocuite cu "". > > Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă să > convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional > "tr '/ăâșțî/aasti/'" presupun că nu o să meargă. > > Aveți ceva recomandări despre cum aș putea trata problema făra să > reinventez roata (de ex cu script http://www.perlmonks.org/?node_id=963341 > ) > > Multumesc, > Adrian > _______________________________________________ RLUG mailing list RLUG@lists.lug.ro http://lists.lug.ro/mailman/listinfo/rlug