Poate vorbesc prostii dar cu iconv ai incercat?

$ echo "șlițuleț" | iconv -t ISO8859-1//TRANSLIT
slitulet

2016-06-10 15:35 GMT+03:00 Adrian Popa <adrian.popa...@gmail.com>:

> Am omis să spun că inputul arată în halul ăsta (văzut cu less):
>
> United World Chart single-ul a atins pozi<C8><9B>ia cu num<C4><83>rul 7,
> acumul<C3><A2>nd peste 2,25
>
> Dacă îl deschid cu un editor care știe de UTF8 văd diacriticile ok.
>
> 2016-06-10 15:24 GMT+03:00 Adrian Popa <adrian.popa...@gmail.com>:
>
> > Salutare,
> >
> > Am de procesat ~9GB de text cu diacritice (un dump de wikipedia .ro)
> > pentru care vreau să înlocuiesc diacriticele cu caracterele echivalente
> > ASCII. Cu siguranță am și alte caractere UTF8 care nu sunt diacritice și
> > care nu au corespondent ASCII, așa că ele pot fi înlocuite cu "".
> >
> > Caut o variantă deja existentă și cât mai cuprinzătoate (de ex capabilă
> să
> > convertească și é în e, chiar dacă nu e diacritic), așa că un tradițional
> > "tr '/ăâșțî/aasti/'" presupun că nu o să meargă.
> >
> > Aveți ceva recomandări despre cum aș putea trata problema făra să
> > reinventez roata (de ex cu script
> http://www.perlmonks.org/?node_id=963341
> > )
> >
> > Multumesc,
> > Adrian
> >
> _______________________________________________
> RLUG mailing list
> RLUG@lists.lug.ro
> http://lists.lug.ro/mailman/listinfo/rlug
>
_______________________________________________
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui