Спасибо вам за этот пост, Александр. Ну, помню, шутка такая была: "У вас была головная боль с обработкой текстов и вы решили использовать регулярные выражения? Поздравляем, теперь у вас две головных боли!" Про Unicode похоже. Мне кажется, каждый разработчик не может быть экспертом в Unicode. Такие проблемы решаются следующим образом: из среды выдвигается герой (или группа героев), БЕРЁТ НА СЕБЯ ОТВЕТСТВЕННОСТЬ и делает всем приемлемо удобно на приемлемо понятном уровне на ближайшие несколько лет. Потом ситуация повторяется. Бардак -> Общественный запрос-> Герой -> Новый порядок. Сейчас такой герой - Кристиансен? Замечательно. Это очень хорошо, потому что он хороший объясняльщик. Ну невозможно всё исследовать и изучать самому. Нужно, чтобы кто-то вышел и сказал: я три литра крови пролил в боях с юникодом, и вот что я вам скажу, пацаны: ДЕЛАЙТЕ КАК Я ГОВОРЮ, $!$^$^ вашу ***** !!!!!!.
Ну вот. Ваш пост - это предупреждение о том, что не всё просто и с юникодом сплошная засада. Много предположительно полезных и очень полезных ссылок. Особенно про Си и Юникод. Спасибо вам. В копилку ссылок: есть две книжки, примыкающие к Unicode, кодировкам и т.д. с разных сторон. Они - не самая-самая истина в самой-самой последней инстанции вот прям-прям совсем, но в них очень много хорошего понапихано очень-очень по делу. 1) Fonts & Encodings From Advanced Typography to Unicode and Everything in Between By Yannis Haralambous http://shop.oreilly.com/product/9780596102425.do 2) CJKV Information Processing, 2nd Edition By Ken Lunde http://shop.oreilly.com/product/9780596514471.do 17 февраля 2012 г. 15:47 пользователь Orlovsky Alexander <[email protected]> написал: > Ссылки уже все исправил - это была моя ошибка. Открытые ранее страницы нужно > рефрешнуть в браузере с очисткой кеша (Ctrl + R), чтобы они обновились. > > Врезка неудачная (как и фраза, возможно) - убрал из врезки. Вообще с > форматированием я еще не вполне освоился и возможны косяки, как следствие > переноса текстов в новое оформление. Фраза относится, конечно, к utf-8 > > NFD относится к модулю Unicode::Normalize, который экспортирует его > по-умолчанию. Но я изменил код, чтобы было понятнее, откуда он появился. > > Спасибо за отзыв! > > 17.02.2012, 15:11, "Dmitry Arsentiev" <[email protected]>: >> Александр, кликаю в тексте поста на эту ссылку, а она ведёт опять на ваш >> блог. >> http://en.wikipedia.org/wiki/UTF-EBCDIC >> >> Кроме того, непонятно, к чему относится надпись во врезке: >> Самая "православная" кодировка >> ? >> К кодировке UTF-8 или к кодировке UTF-EBCDIC ? >> >> Ещё вопрос. Вот строка: >> $str = NFD($str); >> Из какого модуля функция NFD? >> Или это самописная ваша функция, исходный код которой вы по каким-то >> причинам решили не показывать? >> >> 17 февраля 2012 г. 13:43 пользователь Orlovsky Alexander >> <[email protected]> написал: >> >>> Я тут себе IT-бложик завел, заодно, кроме всего прочего, опубликовал там >>> текст на основе моего декабрьского доклада на Saint Perl "Unicode. Ликбез": >>> http://nordicdyno.github.com/blog/2012/02/17/unicode-basics/ >>> >>> Буду рад любым комментариям, лайкам, +1 и т. д. ) >>> Критику лучше пишите в рассыку, постараюсь исправить недочеты, если они >>> есть ) (на пулл-реквесты не расчитываю :) >>> Слайды особенной ценности не представляют, но тоже могу выложить, если >>> кому-то нужно. >>> >>> З.Ы. >>> В блоге пока нет отдельного RSS-потока по Perl, но на этих выходных >>> постараюсь его прикрутить (пока только осваиваю Octopress). >>> -- >>> Moscow.pm mailing list >>> [email protected] | http://moscow.pm.org >> -- >> Moscow.pm mailing list >> [email protected] | http://moscow.pm.org > -- > Moscow.pm mailing list > [email protected] | http://moscow.pm.org -- Moscow.pm mailing list [email protected] | http://moscow.pm.org
