Predem mého príspevku bych rád odpovedel na flamebait: Co je, proboha, na 
starejch mladejch plešatejch pražského?? Pragocentristo...

 No a k tématu: Myslím že nikomu nebude vadit tretí varianta. Navíc mi to 
prijde docela umelý príklad.
 Celé toto téma zacal muj naprosto praktický príklad, kdy meli uživatelé 
problém se seznamem názvu ulic serazených algoritmem, který ignoruje mezery.

 Nad celnicí
 Nademlejnská
 Nad strání
 Na rohatce
 Na stírce
 Navarova
 Na tocne
 Na žabce

 Kamil Podlešák

-----Original Message-----
From:   [email protected] on behalf of Oto Buchta
Sent:   Tue 11/3/2009 5:40 PM
To:     Java
Cc:     
Subject:        Re: Comparator na retezce s diakritikou

Ano, máte pravdu, i v ceštine se kupredu hýbou i veci rozumné (nejen
ono nechutné pražské starej mladej plešatej). Norma to opravdu rešila
a rozpad byl odstranen, lec nikolivek dokonale, a potíže s rímskými
císly pretrvávají, nebot norma hovorí o razení císlic obecne,
nikolivek o razení arabských císlic jako o skupine znaku 0 až 9. V
norme je navíc samotná sekce venovaná rímským císlum a císlicím.

Pouze výtah z oné normy:

"3 Razení císlic

Císlice a skupiny císlic (vc. prípadné desetinné cárky nebo znaménka
minus) se radí podle císelné hodnoty císlic - ve vzestupném císelném
poradí až za abecedu, tedy:
... v, w, x, y, z, ž, 0, 1, 2, 3, ...

Jsou-li císlo nebo císlovka vyjádreny slovne, radí se jako slovo." konec citátu.

Ja nevím, ale opet si kladu otázku: jak správne cesky seradit:
náš Václav Marhoul
náš Václav III.
náš Václav IV.
náš Václav V.
náš Václav IIL.(a ted mne nekamenujte, neb 48 se jako IIL psát nemá,
je to tu pouze pro ilustraci)
náš Václav Míl
náš Václav MIL.
náš Václav tretí
náš Václav šestý

Podle toho, co ríká norma, to muže být:
náš Václav Marhoul
náš Václav Míl
náš Václav šestý
náš Václav tretí
náš Václav III.
náš Václav IIL.
náš Václav IV.
náš Václav V.
náš Václav MIL.
(písmena zastupující rímské císlice jsou serazena I V X L C D M)

nebo
náš Václav Marhoul
náš Václav Míl
náš Václav šestý
náš Václav tretí
náš Václav MIL.
náš Václav III.
náš Václav IV.
náš Václav IIL.
náš Václav V.
(rímské císlovky jsou prevedeny na arabská a trízeny podle císlic 0..9)

nebo  (asi nejlogictejší, ale z historického kontextu normy nejméne
pravdepodobné)
náš Václav III.
náš Václav IIL.
náš Václav IV.
náš Václav Marhoul
náš Václav MIL.
náš Václav Míl
náš Václav šestý
náš Václav tretí
náš Václav V.
(písmeno je písmeno a basta, císlice jsou arabské císlice, tedy jenom
znaky 0..9)

Gdo napíše obecný (na vstupu má libovolnou posloupnost retezcu a neví
nic o jejich strukture) hromadný deterministický algoritmus, který to
setrídí správne dle 1 nebo 2, má u mne flašu slivovice...

Pokud se ale bude rídit pocítacový svet onou tretí podobou, opravdu
heuristik ve vztahu k císlovkám nebude treba.

Trošku z jiného testa je razení zkratek, viz CHKO versus CHR
(Commision on Human Rights). V prvním prípade se jedná o tri písmena
CH K O, ve druhém to ale dve písmena CH R nejsou. Zde je správne treba
radit jako C H R. O tom ale norma bohužel opet mlcí a nezbývá než se
rozhodnout, že mlcení je souhlas s CHrazením i v tomto prípade.
Bohužel i bohudík.

Dne 3. listopadu 2009 8:13 Filip Jirsák <[email protected]> napsal(a):
> Zdravím,
> tohle už bylo z ceské normy odstraneno, podle soucasné normy už jde
> radit automaticky bez nejaké heuristiky. Ale je to pomerne nová vec,
> dlouho to opravdu platilo, jak píšete.
>
> Filip Jirsák
>
>> Nemyslím že kdy bude nejaký soft schopen radit podle ceské normy.
>> Uvedu príklad: Václav III. má být podle ceské normy až za Václavem
>> IV., protože ceská norma vyžaduje trídení textu pomocí trídení fonému,
>> a tedy václav ctvrtý bude pred václavem tretím. A tady už bereme v
>> potaz nejen syntaxi, ale i sémantiku...
>>
>> http://prirucka.ujc.cas.cz/?action=view&id=900
>>
>> tapik
>>
>



<<winmail.dat>>

Odpovedet emailem