On Tue, 9 Apr 2002 21:42:09 +0200
Victor Senderov <[EMAIL PROTECTED]> wrote:

> Здравейте LUG-BG,
> 
> Тъй като наскоро имаше дискусия относно едно писмо в UTF-8, бих искал
> да попитам верни ли са следните извършени от мен наблюдения, или се
> отнасят само за моята машина:
> 
> 1) Текст, записан като UTF-16, може да бъде прочетен без загуба на
> кирилските символи, и когато бъде отворен като CP-1251. Настъпва,
> обаче загуба поне на някои западноевропейски символи като немските
> умлаути, например.

        UTF-16 e universalen standard za codirane na symboli ot razlichni
charset-i. Realno vseki charset (CP1250, CP1251, ... ISO-8859-1,
ISO-8859-2, ..., KOI-8, KANJI, ...) mogat da se predstavjat chrez
UTF-16. UTF-8 e razgunat variant na UTF-16, katsymbol ot UTF-16 se
predstavja s 1 do 5 symbola v UTF-8. Njama zaguba na informacia!
Preobrazuvaneto e 2-posochno. Sashtestvuvat 3 specialni symbol-a v
UTF-16, a imenno (kato 2 posledovatelni byte-a:         (0xFF 0xFF) ->
nevaliden,      (0xFE 0xFF) -> pokazvash che codiraneto na symbolite e v
Little-Endian (Intel Architechture)     (0xFF 0xFE) -> pokazvash che codiraneto na
symbolite e v Big-Endian (Motorola Architechture)

        Sreshtaneto na (0xFF 0xFE) ili (0xFE 0xFF) moze da e prozivolno iz
teksta i ne samo vednuz, kato sreshtaneto mu ukazva che sledvashtite
symboli sa v saotvetnata organizacia.


> 
> 2) Текст, записан като UTF-8, може да бъде отворен само като UTF-8,
> или UTF-16, в противен случай, могат да бъдат възстановени, единствено
> американските символи. Всичко друго се губи (напр. при отваряне като
> CP-1251).
> 

        CP-1251 e 8bitov code i sashtestvuva tablica na preobrazuvanie ot
CP-1251 kum UTF-16, kakto i obratno (stiga symbolite da sa v mapping-a).
pogledni v /usr/X11R6/lib/X11/fonts/encodings!

> Освен това искам да попитам, различава ли се ISO-10646-1 кодирането от
> UTF-16, или представляват едно и съшо? Склонен съм да вярвам, че са
> едно и съшо, т.к. текст, записан като ISO-10646-1 проявява сходни
> свойства с тези, които са записани като UTF-16. Защо, обаче,
> файловете, записани на ISO-10646-1 и CP-1251 имат един и същи размер?
> Опитът съм извършил с kwrite. Мислех си, че уникод заема 2 байта, а не
> един.

ISO/IEC 10646 = UCS

Unicode specifikaciata se bazira na UTF-16 (UCS-4), taka che prevoda e 1
kam 1 samo che v nachaloto si ima njakolko (3 do 5) byte-a za
identifikacia.

Pogledni tova :
http://www.nada.kth.se/i18n/ucs/unicode-iso10646-oview.html

> 
> Някои данни за моята инсталация: RH 7.2, KDE 2.2-1, bglinux4.0,
> инсталиран rpm с български менюта, KDE настроено на CP-1251, използвам
> вградената щракалка + хирургия на .../symbols/bg, за да сменям на
> фонетична, пакетът bglinux e настроен посредством set-bg-env на
> CP-1251, първите две наблюдения извърших в kmail, а вторите два
> въпроса се базиран на опити в kwrite.
> 

        Do kolko njakoj locale ili softuer se bazira na UTF-8/16 e vapros na
realizacia. Ot tam proiztichat i problemite, svarzani s prexvurljaneto
mezdu razlichnite charset-i, UTF-8/16, CP1251, KOI-8 ... Realno za da
njama nerazbiratelstvo da se izpolzva razshir nabor kato UTF-8/16 za da
njama problemi. Za poveche informacia pogledni za iconv, jconv, ...

> Поздрави,
> Виктор
> =====================================================================
> ====== A mail-list of Linux Users Group - Bulgaria (bulgarian
> linuxers) http://www.linux-bulgaria.org/ Hosted by Internet Group Ltd.
> - Stara Zagora
> 


-- 
Dimitar Peikov
Programmer Analyst
Globalization Group
"We Build e-Business"  

RILA Solutions  
27 Building, Acad.G.Bonchev Str.  
1113 Sofia, Bulgaria  

phone: (+359 2) 9797320 
phone: (+359 2) 9797300 
fax:   (+359 2) 9733355  
http://www.rila.com 
===========================================================================
A mail-list of Linux Users Group - Bulgaria (bulgarian linuxers)
http://www.linux-bulgaria.org/ Hosted by Internet Group Ltd. - Stara Zagora



Reply via email to