Chyba v triedeni cs_CZ & sk_SK

Honza Pazdziora adelton na fi.muni.cz
Pondělí Květen 26 19:50:50 CEST 2003


On Mon, May 26, 2003 at 04:13:19PM +0000, Honza Houstek wrote:
> > 2. Letmym pohledem do slusnejsiho slovniku (nebo treba tech Zlatych
> > stranek) je kazdy z nas (krome me teda!) urcite schopen sestavit
> > algoritmus, ktery bude v drtive vetsine pripadu vyhovovat.
> 
> Prave ze neni! Ono totiz v te jedine spravne norme zalezi take na
> morfologii toho slova (napr. ch neni ch, pokud c je konec slabiky a h
> zacatek nasledujici). Navic v nejakych pripadech zalezi i na kontextu, jak
> to slovo vzniklo apod.

Ano. Podobne semantika cislovek, řazení speciálních znaků, řazení
cizích slov, a tak podobně. Ale tento thread začal tím, že
zpochybňoval správnost collate řešení v localech, a stěžovatel byl
upozorněn na to, že se nejedná o chybu, ale naopak o vlastnost. O to,
že se aspoň částečně locales snaží vytvořit národní prostředí. Tedy
pro češtinu mít rozumné řazení ch a mít správně poskládané to
víceprůchodové zpracování.

Že najdete situace, kdy to řešení není správně, a že pro specializované
aplikace potřebujete mnohem širší podporu pohybující se na hraně
rozpoznání sémantiky textu je jasné. Pro většinu ostatních situací je
ale rozumný kompromis na úrovni "toho, jak je to ve slovníku". :-)

> Nevim jak je ta norma presne, ale rozhodne vim, ze algoritmizovane to
> neni. Matne tusim, ze kdosi v Brne psal jako diplomku ceske trideni do
> MySQL, mozna tu o tom nekdo vi vic.

O diplomce nevím. Podporu českého řazení do MySQL jsem psal já.
A vychází z výkladu normy CSN 97 6030 podle pana Olšáka a z jeho
řadícího programu csr a mého perlového modulu Cz::Sort -- jedná se
o stále stejný algoritmus / definiční tabulku pro čtyřprůchodové
řazení.

> Rozhodne by bylo na miste tu normu nejak upravit a zjednodusit, aby byla
> algoritmizovatelna (a pritom se toho dosahlo s minimem zmen oproti
> stavajicimu stavu) a tuto upravenou normu pak tvrde vsude vyzadovat.

Obávám se, že knihovníci se s Vámi o zjednodušování normy nebudou
ochotni bavit. :-) Nicméně to, co dělají locales nebo to co dělá MySQL
je právě ono rozumné zjednodušení, které dovoluje to v reálném čase
spočítat a pro většinu vstupů a pro většinu pozorovatelů to dá
výsledky nerozpoznatelné od výsledků normy. Pro mě je výklad normy
podle pana Olšáka tou správnou definicí, vyhovující většině
počítačových potřeb.

-- 
------------------------------------------------------------------------
 Honza Pazdziora | adelton na fi.muni.cz | http://www.fi.muni.cz/~adelton/
 .project: Perl, mod_perl, DBI, Oracle, auth. WWW servers, XML/XSL, ...
		Only self-confident people can be simple.


Další informace o konferenci Linux