Nu are BOM: adrianp@frost:~/development/dictionaries$ file wiki_ro_full.txt wiki_ro_full.txt: UTF-8 Unicode text adrianp@frost:~/development/dictionaries$ hexdump -C wiki_ro_full.txt | head 00000000 0a 2a 2a 2a 2a 2a 2a 20 27 30 33 20 42 6f 6e 6e |.****** '03 Bonn| 00000010 69 65 20 26 20 43 6c 79 64 65 20 2a 2a 2a 2a 2a |ie & Clyde *****| 00000020 2a 0a 20 20 20 20 20 20 20 20 20 20 20 20 20 20 |*. | 00000030 20 27 30 33 20 42 6f 6e 6e 69 65 20 26 20 43 6c | '03 Bonnie & Cl| 00000040 79 64 65 0a 53 69 6e 67 6c 65 20 64 65 20 42 65 |yde.Single de Be| 00000050 79 6f 6e 63 c3 83 c2 a9 0a 4c 61 6e 73 61 72 65 |yonc.....Lansare| 00000060 20 20 20 20 20 20 20 20 20 20 31 32 5f 6e 6f 69 | 12_noi| 00000070 65 6d 62 72 69 65 20 32 30 30 32 0a 47 65 6e 20 |embrie 2002.Gen | 00000080 20 20 20 20 20 20 20 20 20 20 20 20 20 52 61 70 | Rap| 00000090 0a 44 75 72 61 74 c3 84 c2 83 20 20 20 20 20 20 |.Durat.... |
Arată ca ASCII doar că are anumite secvențe de caractere extinse. Fișierul a fost generat cu html2text -utf8 2016-06-13 14:16 GMT+03:00 rzeno <ruset.z...@gmail.com>: > On Mon, Jun 13, 2016 at 12:05:10PM +0300, Adrian Popa wrote: > > Da, cred că e o problemă la input, dar nu-mi dau seama care. Am făcut > > testul cu stringul "È™i" care e reprezentat ok într-un editor de text, > dar e > > reprezentat ca "?i" în terminal (presupun că din cauza fontului?). > > > > adrianp@frost:~/development/dictionaries$ echo "?i" | iconv -f UTF-8 -t > > ASCII//TRANSLIT > > ?i > > adrianp@frost:~/development/dictionaries$ echo "?i" | iconv -f UTF-8 -t > > ASCII//TRANSLIT | hexdump > > 0000000 693f 000a > > 0000003 > > adrianp@frost:~/development/dictionaries$ echo "?i" | od -h > > 0000000 693f 000a > > 0000003 > > adrianp@frost:~/development/dictionaries$ echo $LANG > > en_US.UTF-8 > > > > După cum se vede, outputul din iconv e identic cu inputul... Problema e > că > > "69" reprezintă "i" în ASCII, iar "3f" reprezintă "?". Ceea ce > înseamnă că > > shellul meu nu suportă UTF-8, nu-i aÈ™a? > > > nu tocmai. incearca sa afli, cu file, cum codeaza intregii, little endian > ... si fa conversia. Aceasi chestie, uita-te la primii bytes sa vezi daca > are sau nu BOM.( cu 'cat' ar trebui sa mearga si iti spune si formatul, > trebuie ghicit in functie de primi 4 bytes. ). > > best regards > _______________________________________________ > RLUG mailing list > RLUG@lists.lug.ro > http://lists.lug.ro/mailman/listinfo/rlug > _______________________________________________ RLUG mailing list RLUG@lists.lug.ro http://lists.lug.ro/mailman/listinfo/rlug