Nu are BOM:

adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt
wiki_ro_full.txt: UTF-8 Unicode text
adrianp@frost:~/development/dictionaries$ hexdump -C wiki_ro_full.txt | head
00000000  0a 2a 2a 2a 2a 2a 2a 20  27 30 33 20 42 6f 6e 6e  |.****** '03
Bonn|
00000010  69 65 20 26 20 43 6c 79  64 65 20 2a 2a 2a 2a 2a  |ie & Clyde
*****|
00000020  2a 0a 20 20 20 20 20 20  20 20 20 20 20 20 20 20
|*.              |
00000030  20 27 30 33 20 42 6f 6e  6e 69 65 20 26 20 43 6c  | '03 Bonnie &
Cl|
00000040  79 64 65 0a 53 69 6e 67  6c 65 20 64 65 20 42 65  |yde.Single de
Be|
00000050  79 6f 6e 63 c3 83 c2 a9  0a 4c 61 6e 73 61 72 65
|yonc.....Lansare|
00000060  20 20 20 20 20 20 20 20  20 20 31 32 5f 6e 6f 69  |
12_noi|
00000070  65 6d 62 72 69 65 20 32  30 30 32 0a 47 65 6e 20  |embrie
2002.Gen |
00000080  20 20 20 20 20 20 20 20  20 20 20 20 20 52 61 70  |
Rap|
00000090  0a 44 75 72 61 74 c3 84  c2 83 20 20 20 20 20 20
|.Durat....      |

Arată ca ASCII doar că are anumite secvențe de caractere extinse.

Fișierul a fost generat cu html2text -utf8

2016-06-13 14:16 GMT+03:00 rzeno <ruset.z...@gmail.com>:

> On Mon, Jun 13, 2016 at 12:05:10PM +0300, Adrian Popa wrote:
> > Da, cred că e o problemă la input, dar nu-mi dau seama care. Am făcut
> > testul cu stringul "și" care e reprezentat ok într-un editor de text,
> dar e
> > reprezentat ca "?i" în terminal (presupun că din cauza fontului?).
> >
> > adrianp@frost:~/development/dictionaries$ echo "?i" | iconv -f UTF-8 -t
> > ASCII//TRANSLIT
> > ?i
> > adrianp@frost:~/development/dictionaries$ echo "?i" | iconv -f UTF-8 -t
> > ASCII//TRANSLIT | hexdump
> > 0000000 693f 000a
> > 0000003
> > adrianp@frost:~/development/dictionaries$ echo "?i" | od -h
> > 0000000 693f 000a
> > 0000003
> > adrianp@frost:~/development/dictionaries$ echo $LANG
> > en_US.UTF-8
> >
> > După cum se vede, outputul din iconv e identic cu inputul... Problema e
> că
> > "69" reprezintă "i" în ASCII, iar "3f" reprezintă "?". Ceea ce
> înseamnă că
> > shellul meu nu suportă UTF-8, nu-i așa?
> >
> nu tocmai. incearca sa afli, cu file, cum codeaza intregii, little endian
> ... si fa conversia. Aceasi chestie, uita-te la primii bytes sa vezi daca
> are sau nu BOM.( cu 'cat' ar trebui sa mearga si iti spune si formatul,
> trebuie ghicit in functie de primi 4 bytes. ).
>
> best regards
> _______________________________________________
> RLUG mailing list
> RLUG@lists.lug.ro
> http://lists.lug.ro/mailman/listinfo/rlug
>
_______________________________________________
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui