Já bych si dovolil tvrdit něco jiného: Můžeme s tím nesouhlasit, můžeme o tom diskutovat, ale to je situace, kterou s Unicode a s UTF8 už teď máme, a je to stav odpovídající specifikaci unikodu, tj.ne chyba k opravě. Volat "fuj fuj hack nechci to" je sice možný názor, ale jakou navrhuješ alternativu? Vrátíme se ke Kameníkům, byli takoví hezký a přehledný? Tahle loď už odplula - planetfile je tak nějak z definice celosvětový, a Unicode znaky nejsou bajty, ba ani 1:1 sekvence bajtů (kernelu se to medle netýká vůbec, to je záležitost OSM toolchainu).
Normalizovat před uložením - já jsem úplně pro, když zrovna pro češtinu ten kratší způsob zápisu existuje...jenže to si můžeme říct tady, a kdo to bude hlídat, že třeba nějaká appka nebude zapisovat tagy v NFD? Z principu to ani nemůže nikdo u-hlídat; prostě je třeba počítat s tím, že občas dostaneme validní data kódovaná jinak než tou konvencí, kterou si tady my vzájemně řekneme. TL;DR: nemáme vliv na všechna vstupní data, a nic s tím nenaděláme. Pokud jsou validní, musíme s nimi žít. Dne 31. 1. 2017 12:43 odp. napsal uživatel "Pavel Machek" <pa...@ucw.cz>: On Fri 2017-01-20 20:19:31, Jan Martinec wrote: > (A když jsme u toho párování, porovnávání a podobných mňamek, __normalizace > velkých písmen už teď zdaleka nestačí__ - je třeba používat nástroje, který > má daný jazyk pro Unicode. Ne proto, že by to jinak nešlo, ale proto, že to > tuhle práci udělá samo, i pro případy, který by mě ani nenapadly. Což > znamená mj. to, že když ty stringy budeš porovnávat po bajtech, tak tě > kousne nejen whitespace, ale i případ, kdy "Bělá" je sice v Unicode rovno > "Bělá", ale převedený __na bajty__ bez normalizace do NFC nebo NFD to není > identický, protože to první jsou čtyři znaky, a druhý je fskutčnosti znaků > šest, totiž "B(kombinující háček)el(kombinující čárka)a", a obojí je > rovnocenný způsob zápisu - ani jedno není workaround či hack. Hmm. To abychom do kernelu pridali unicodovej normalizator. Ne-e, sorry. Zapsat pomoci 6-ti znaku na co staci 4 znaky je workaround a hack. Podobne by mi prislo rozumny normalizovat _pred_ ulozenim do osm databaze. Pavel -- (english) http://www.livejournal.com/~pavelmachek (cesky, pictures) http://atrey.karlin.mff.cuni. cz/~pavel/picture/horses/blog.html _______________________________________________ Talk-cz mailing list Talk-cz@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-cz
_______________________________________________ Talk-cz mailing list Talk-cz@openstreetmap.org https://lists.openstreetmap.org/listinfo/talk-cz