Re: подсчет символов UTF-8

2009-04-25 Пенетрантность Serhiy Storchaka
Иван Лох wrote:
> Думаю, что если убрать пробелы всех видов, то совпадет...

Не всё так просто. Сперва нужно договориться какие символы считать пробелами
и каких видов… ;)


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: подсчет символов UTF-8

2009-04-23 Пенетрантность Fedir Gontsa
2009/4/23 Dmitry Fedorov :
> 23 апреля 2009 г. 21:15 пользователь Mikhail A Antonov написал:
>>> iconv -f UTF-8 -t KOI8-U file.txt | wc -m
>>>
>> Натыкаемся на символ, который есть в utf8, но нет в koi8 и что дальше будет?
>
> Конвертим в utf-32, считаем и делим на 4.
>

iconv -f UTF-8 -t UTF-32 01.txt | wc -m
115792

115792/4
28948
еще другая, отдельная цифра, от прошлых вычислений. Все колеблются на
таких массивах в приделах 1%, это терпимо для меня

-- 
Fedir Gontsa


Re: подсчет символов UTF-8

2009-04-23 Пенетрантность Dmitry Fedorov
23 апреля 2009 г. 21:15 пользователь Mikhail A Antonov написал:
>> iconv -f UTF-8 -t KOI8-U file.txt | wc -m
>>
> Натыкаемся на символ, который есть в utf8, но нет в koi8 и что дальше будет?

Конвертим в utf-32, считаем и делим на 4.


Re: подсчет символов UTF-8

2009-04-23 Пенетрантность Mikhail A Antonov
-[ Peter Pentchev 23/04/2009 17:38 (GMT +3)
> On Thu, Apr 23, 2009 at 04:29:19PM +0300, Fedir Gontsa wrote:
> > Добрый день Уважаемые!
> > Спешу с вопросом. Как подсчитать количество символов в текстовом файле
> > если файл в UTF-8,  а локаль KOI-8
>
> [snip]
>
> > Подскажите как посчитать количество символов в файле (Копировать в
> > GEdit или OpenOffice не вариант)
>
> iconv -f UTF-8 -t KOI8-U file.txt | wc -m
>
Натыкаемся на символ, который есть в utf8, но нет в koi8 и что дальше будет?

> env LANG=ru_UA.UTF-8 wc -m file.txt
>

-- 
Best regards,
 Mikhail
xmpp: ant...@stopicq.ru
irc: Bart-mdv- @ SolarNet
SolarNet: http://www.solarnet.ru/


signature.asc
Description: This is a digitally signed message part.


Re: подсчет символов UTF-8

2009-04-23 Пенетрантность Artem Chuprina
Fedir Gontsa -> debian-russian@lists.debian.org  @ Thu, 23 Apr 2009 16:48:49 
+0300:

 >> cat 01 | LANG=uk_UA.UTF-8 wc -m
 >> 28947
 >>
 >> ОпенОфис выдал 28571 я конечно не скряга... но 376 символов гдето 
 >> пропадают
 >> не могу понять где
 >>
 FG> GEdit выдает 28726
 FG> Кому верить?

 FG> мне эти данные нужны для статистики (Авторский лист) разница при
 FG> подсчете через wc 72.36% а через опенофис 71,42% или ~1% списывать
 FG> на погрешность?

There's no sense in being precise, when you don't even know what
you're talking about.
 -- John von Neumann

Все зависит от того, какой принцип подсчета знаков тебе нужен, и какой
реализуют упомянутые тобой программы.  wc, насчитывающий больше всех,
считает _символы_ (а не "знаки", как будет, видимо, в определении
авторского листа), в _файле_ (а не документе, где, вероятно, считает OO).

При такой разнице, подозреваю, оная разница состоит преимущественно из
концов строк и, возможно, из концевых пробелов.  Красивую гипотезу о
том, что wc считает CRLF за 2 символа, GEdit за 1, а OO за 0, подсчеты
не оправдали :-)

-- 
Реляционная база данных - это не единственный способ сделать дурацкий поиск.
Victor Wagner


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: подсчет символов UTF-8

2009-04-23 Пенетрантность Fedir Gontsa
> iconv -f UTF-8 -t KOI8-U file.txt | wc -m
>
iconv вешаеться на каком-то из iconv: illegal input sequence at position 2337

env LANG=uk_UA.UTF-8 wc -m 01.txt
 а вариант со сменой локали работает... погрешность при подсчете ~1% с
опенофисом, будем считать технологической потребностью. Все же не
бухгалтерия

Всем спасибо,
Надеюсь тема закрыта. И полюбившиеся в последнее время холивары про
политику и тролей ее не зацепят :)

Желаю Всем здравствовать!
Спасибо,
с Уважением,
Федор Гонца


-- 
Fedir Gontsa
architect, Cherkasy, Ukraine


Re: подсчет символов UTF-8

2009-04-23 Пенетрантность Dmitry Fedorov
2009/4/23 Fedir Gontsa:
> Добрый день Уважаемые!
> Спешу с вопросом. Как подсчитать количество символов в текстовом файле
> если файл в UTF-8,  а локаль KOI-8
>
> даю команду вида
> cat 01.txt  |  wc -m при условии что файл и локаль в одной кодировке

Вручаю вам виртуальный приз за бессмысленное использовние программы cat.


Re: подсчет символов UTF-8

2009-04-23 Пенетрантность pasha
В Чтв, 23/04/2009 в 16:41 +0300, Fedir Gontsa пишет:
> 2009/4/23 Artem Chuprina :
> 
> > Fedir Gontsa -> debian-russian@lists.debian.org  @ Thu, 23 Apr 2009 
> > 16:29:19 +0300:
> >  FG> в отношении файлов в кодировке UTF-8, а локаль КОИ выдает результат не 
> > верный.
> >  FG> например для одного и того же текста
> >  FG> cat 01_UTF-8.txt  |  wc -m
> >  FG> 53308
> >  FG> cat 01_KOI-8.txt  |  wc -m
> >  FG> 28571
> >
> > cat 01_UTF-8.txt | LANG=ru_RU.UTF-8 wc -m
> >
> > Локаль - свойство процесса, а не системы.
> >
> 
> cat 01 | LANG=uk_UA.UTF-8 wc -m
> 28947
> 
> ОпенОфис выдал 28571 я конечно не скряга... но 376 символов гдето 
> пропадают
> не могу понять где
> 
> 
а OOo пробелы и другие подобные символы считает?


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



Re: подсчет символов UTF-8

2009-04-23 Пенетрантность Fedir Gontsa
>
> cat 01 | LANG=uk_UA.UTF-8 wc -m
> 28947
>
> ОпенОфис выдал 28571 я конечно не скряга... но 376 символов гдето 
> пропадают
> не могу понять где
>
GEdit выдает 28726
Кому верить?

мне эти данные нужны для статистики (Авторский лист) разница при
подсчете через wc 72.36% а через опенофис 71,42% или ~1% списывать на
погрешность?

-- 
Fedir Gontsa
architect, Cherkasy, Ukraine


Re: подсчет символов UTF-8

2009-04-23 Пенетрантность Fedir Gontsa
2009/4/23 Artem Chuprina :

> Fedir Gontsa -> debian-russian@lists.debian.org  @ Thu, 23 Apr 2009 16:29:19 
> +0300:
>  FG> в отношении файлов в кодировке UTF-8, а локаль КОИ выдает результат не 
> верный.
>  FG> например для одного и того же текста
>  FG> cat 01_UTF-8.txt  |  wc -m
>  FG> 53308
>  FG> cat 01_KOI-8.txt  |  wc -m
>  FG> 28571
>
> cat 01_UTF-8.txt | LANG=ru_RU.UTF-8 wc -m
>
> Локаль - свойство процесса, а не системы.
>

cat 01 | LANG=uk_UA.UTF-8 wc -m
28947

ОпенОфис выдал 28571 я конечно не скряга... но 376 символов гдето пропадают
не могу понять где


-- 
Fedir Gontsa
architect, Cherkasy, Ukraine


Re: подсчет символов UTF-8

2009-04-23 Пенетрантность Artem Chuprina
Fedir Gontsa -> debian-russian@lists.debian.org  @ Thu, 23 Apr 2009 16:29:19 
+0300:

 FG> Добрый день Уважаемые!
 FG> Спешу с вопросом. Как подсчитать количество символов в текстовом файле
 FG> если файл в UTF-8,  а локаль KOI-8

 FG> даю команду вида
 FG> cat 01.txt  |  wc -m при условии что файл и локаль в одной кодировке
 FG> (koi8) все ок (данные совпадают с результатом тестовой проверки
 FG> ОпенОфисом :))

 FG> в отношении файлов в кодировке UTF-8, а локаль КОИ выдает результат не 
верный.
 FG> например для одного и того же текста
 FG> cat 01_UTF-8.txt  |  wc -m
 FG> 53308
 FG> cat 01_KOI-8.txt  |  wc -m
 FG> 28571

cat 01_UTF-8.txt | LANG=ru_RU.UTF-8 wc -m

Локаль - свойство процесса, а не системы.

-- 
Если в кране нет воды -
удали с винта винды.


-- 
To UNSUBSCRIBE, email to debian-russian-requ...@lists.debian.org
with a subject of "unsubscribe". Trouble? Contact listmas...@lists.debian.org



подсчет символов UTF-8

2009-04-23 Пенетрантность Fedir Gontsa
Добрый день Уважаемые!
Спешу с вопросом. Как подсчитать количество символов в текстовом файле
если файл в UTF-8,  а локаль KOI-8

даю команду вида
cat 01.txt  |  wc -m при условии что файл и локаль в одной кодировке
(koi8) все ок (данные совпадают с результатом тестовой проверки
ОпенОфисом :))

в отношении файлов в кодировке UTF-8, а локаль КОИ выдает результат не верный.
например для одного и того же текста
cat 01_UTF-8.txt  |  wc -m
53308
cat 01_KOI-8.txt  |  wc -m
28571

Подскажите как посчитать количество символов в файле (Копировать в
GEdit или OpenOffice не вариант)
Заранее спасибо,
с Уважением
Федор Гонца

-- 
Fedir Gontsa