Re: подсчет символов UTF-8
Иван Лох wrote: > Думаю, что если убрать пробелы всех видов, то совпадет... Не всё так просто. Сперва нужно договориться какие символы считать пробелами и каких видов… ;) -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Re: подсчет символов UTF-8
2009/4/23 Dmitry Fedorov : > 23 апреля 2009 г. 21:15 пользователь Mikhail A Antonov написал: >>> iconv -f UTF-8 -t KOI8-U file.txt | wc -m >>> >> Натыкаемся на символ, который есть в utf8, но нет в koi8 и что дальше будет? > > Конвертим в utf-32, считаем и делим на 4. > iconv -f UTF-8 -t UTF-32 01.txt | wc -m 115792 115792/4 28948 еще другая, отдельная цифра, от прошлых вычислений. Все колеблются на таких массивах в приделах 1%, это терпимо для меня -- Fedir Gontsa
Re: подсчет символов UTF-8
23 апреля 2009 г. 21:15 пользователь Mikhail A Antonov написал: >> iconv -f UTF-8 -t KOI8-U file.txt | wc -m >> > Натыкаемся на символ, который есть в utf8, но нет в koi8 и что дальше будет? Конвертим в utf-32, считаем и делим на 4.
Re: подсчет символов UTF-8
-[ Peter Pentchev 23/04/2009 17:38 (GMT +3) > On Thu, Apr 23, 2009 at 04:29:19PM +0300, Fedir Gontsa wrote: > > Добрый день Уважаемые! > > Спешу с вопросом. Как подсчитать количество символов в текстовом файле > > если файл в UTF-8, а локаль KOI-8 > > [snip] > > > Подскажите как посчитать количество символов в файле (Копировать в > > GEdit или OpenOffice не вариант) > > iconv -f UTF-8 -t KOI8-U file.txt | wc -m > Натыкаемся на символ, который есть в utf8, но нет в koi8 и что дальше будет? > env LANG=ru_UA.UTF-8 wc -m file.txt > -- Best regards, Mikhail xmpp: ant...@stopicq.ru irc: Bart-mdv- @ SolarNet SolarNet: http://www.solarnet.ru/ signature.asc Description: This is a digitally signed message part.
Re: подсчет символов UTF-8
Fedir Gontsa -> debian-russian@lists.debian.org @ Thu, 23 Apr 2009 16:48:49 +0300: >> cat 01 | LANG=uk_UA.UTF-8 wc -m >> 28947 >> >> ОпенОфис выдал 28571 я конечно не скряга... но 376 символов гдето >> пропадают >> не могу понять где >> FG> GEdit выдает 28726 FG> Кому верить? FG> мне эти данные нужны для статистики (Авторский лист) разница при FG> подсчете через wc 72.36% а через опенофис 71,42% или ~1% списывать FG> на погрешность? There's no sense in being precise, when you don't even know what you're talking about. -- John von Neumann Все зависит от того, какой принцип подсчета знаков тебе нужен, и какой реализуют упомянутые тобой программы. wc, насчитывающий больше всех, считает _символы_ (а не "знаки", как будет, видимо, в определении авторского листа), в _файле_ (а не документе, где, вероятно, считает OO). При такой разнице, подозреваю, оная разница состоит преимущественно из концов строк и, возможно, из концевых пробелов. Красивую гипотезу о том, что wc считает CRLF за 2 символа, GEdit за 1, а OO за 0, подсчеты не оправдали :-) -- Реляционная база данных - это не единственный способ сделать дурацкий поиск. Victor Wagner -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Re: подсчет символов UTF-8
> iconv -f UTF-8 -t KOI8-U file.txt | wc -m > iconv вешаеться на каком-то из iconv: illegal input sequence at position 2337 env LANG=uk_UA.UTF-8 wc -m 01.txt а вариант со сменой локали работает... погрешность при подсчете ~1% с опенофисом, будем считать технологической потребностью. Все же не бухгалтерия Всем спасибо, Надеюсь тема закрыта. И полюбившиеся в последнее время холивары про политику и тролей ее не зацепят :) Желаю Всем здравствовать! Спасибо, с Уважением, Федор Гонца -- Fedir Gontsa architect, Cherkasy, Ukraine
Re: подсчет символов UTF-8
2009/4/23 Fedir Gontsa: > Добрый день Уважаемые! > Спешу с вопросом. Как подсчитать количество символов в текстовом файле > если файл в UTF-8, а локаль KOI-8 > > даю команду вида > cat 01.txt | wc -m при условии что файл и локаль в одной кодировке Вручаю вам виртуальный приз за бессмысленное использовние программы cat.
Re: подсчет символов UTF-8
В Чтв, 23/04/2009 в 16:41 +0300, Fedir Gontsa пишет: > 2009/4/23 Artem Chuprina : > > > Fedir Gontsa -> debian-russian@lists.debian.org @ Thu, 23 Apr 2009 > > 16:29:19 +0300: > > FG> в отношении файлов в кодировке UTF-8, а локаль КОИ выдает результат не > > верный. > > FG> например для одного и того же текста > > FG> cat 01_UTF-8.txt | wc -m > > FG> 53308 > > FG> cat 01_KOI-8.txt | wc -m > > FG> 28571 > > > > cat 01_UTF-8.txt | LANG=ru_RU.UTF-8 wc -m > > > > Локаль - свойство процесса, а не системы. > > > > cat 01 | LANG=uk_UA.UTF-8 wc -m > 28947 > > ОпенОфис выдал 28571 я конечно не скряга... но 376 символов гдето > пропадают > не могу понять где > > а OOo пробелы и другие подобные символы считает? -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
Re: подсчет символов UTF-8
> > cat 01 | LANG=uk_UA.UTF-8 wc -m > 28947 > > ОпенОфис выдал 28571 я конечно не скряга... но 376 символов гдето > пропадают > не могу понять где > GEdit выдает 28726 Кому верить? мне эти данные нужны для статистики (Авторский лист) разница при подсчете через wc 72.36% а через опенофис 71,42% или ~1% списывать на погрешность? -- Fedir Gontsa architect, Cherkasy, Ukraine
Re: подсчет символов UTF-8
2009/4/23 Artem Chuprina : > Fedir Gontsa -> debian-russian@lists.debian.org @ Thu, 23 Apr 2009 16:29:19 > +0300: > FG> в отношении файлов в кодировке UTF-8, а локаль КОИ выдает результат не > верный. > FG> например для одного и того же текста > FG> cat 01_UTF-8.txt | wc -m > FG> 53308 > FG> cat 01_KOI-8.txt | wc -m > FG> 28571 > > cat 01_UTF-8.txt | LANG=ru_RU.UTF-8 wc -m > > Локаль - свойство процесса, а не системы. > cat 01 | LANG=uk_UA.UTF-8 wc -m 28947 ОпенОфис выдал 28571 я конечно не скряга... но 376 символов гдето пропадают не могу понять где -- Fedir Gontsa architect, Cherkasy, Ukraine
Re: подсчет символов UTF-8
Fedir Gontsa -> debian-russian@lists.debian.org @ Thu, 23 Apr 2009 16:29:19 +0300: FG> Добрый день Уважаемые! FG> Спешу с вопросом. Как подсчитать количество символов в текстовом файле FG> если файл в UTF-8, а локаль KOI-8 FG> даю команду вида FG> cat 01.txt | wc -m при условии что файл и локаль в одной кодировке FG> (koi8) все ок (данные совпадают с результатом тестовой проверки FG> ОпенОфисом :)) FG> в отношении файлов в кодировке UTF-8, а локаль КОИ выдает результат не верный. FG> например для одного и того же текста FG> cat 01_UTF-8.txt | wc -m FG> 53308 FG> cat 01_KOI-8.txt | wc -m FG> 28571 cat 01_UTF-8.txt | LANG=ru_RU.UTF-8 wc -m Локаль - свойство процесса, а не системы. -- Если в кране нет воды - удали с винта винды. -- To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org
подсчет символов UTF-8
Добрый день Уважаемые! Спешу с вопросом. Как подсчитать количество символов в текстовом файле если файл в UTF-8, а локаль KOI-8 даю команду вида cat 01.txt | wc -m при условии что файл и локаль в одной кодировке (koi8) все ок (данные совпадают с результатом тестовой проверки ОпенОфисом :)) в отношении файлов в кодировке UTF-8, а локаль КОИ выдает результат не верный. например для одного и того же текста cat 01_UTF-8.txt | wc -m 53308 cat 01_KOI-8.txt | wc -m 28571 Подскажите как посчитать количество символов в файле (Копировать в GEdit или OpenOffice не вариант) Заранее спасибо, с Уважением Федор Гонца -- Fedir Gontsa