Am omis să spun că inputul arată în halul ăsta (văzut cu less):

United World Chart single-ul a atins pozi<C8><9B>ia cu num<C4><83>rul 7,
acumul<C3><A2>nd peste 2,25

Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok.

2016-06-10 15:24 GMT+03:00 Adrian Popa <adrian.popa...@gmail.com>:

> Salutare,
>
> Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro)
> pentru care vreau să înlocuiesc diacriticele cu caracterele echivalente
> ASCII. Cu siguranță am și alte caractere UTF8 care nu sunt diacritice și
> care nu au corespondent ASCII, așa că ele pot fi înlocuite cu "".
>
> Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă să
> convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional
> "tr '/ăâșțî/aasti/'" presupun că nu o să meargă.
>
> Aveți ceva recomandări despre cum aș putea trata problema făra să
> reinventez roata (de ex cu script http://www.perlmonks.org/?node_id=963341
> )
>
> Multumesc,
> Adrian
>
_______________________________________________
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui