Chyba v triedeni cs_CZ & sk_SK

Petr Kolar Petr.Kolar na vslib.cz
Středa Květen 28 16:53:21 CEST 2003


Michal Kubecek <mike na mk-sys.cz> wrote:
> To je právě ten hlavní problém. Není možné algoritmicky poznat,
> zda je posloupnost 'ch' dvojicí písmen 'c', 'h' nebo jedním
> písmenem 'ch'. Přesto jazykovědci trvají na tom, že (aspoň
> v češtině) je 'ch' písmeno. Tedy někdy.

Prakticky vždycky. Případy, kdy se jedná o c+h, jsou uměle vycucané z prstu
(možná ve slovenštině je tomu jinak). Pokud by se to mělo nějak řešit,
nejméně škody by nadělalo něco jako zavedení prázdného znaku. Ten by se
pak psal mezi `c' a `h' v těch ojedinělých případech, kdy to není `ch',
podobně jako lze v TeXu napsat víc\-hodnotový.

> Současný stav je nekonzistentní a přínáší řadu problémů. Možná
> řešení jsou dvě:

Současný stav je docela v pohodě.

> 1. Zavést 'ch' jako znak, alokovat pro něj Unicode reprezentaci
> a upravit veškerý software tak, aby s touto reprezentací pracoval.
> Pak bude vždy jasné, zda se jedná o jeden znak nebo dvojici znaků.
> Vzniká ale samozřejmě otázka, co dělat s ne-Unicode softwarem.
>
> 2. Odkázat jazykovědce s jejich mlhavě formulovanými "pravidly"
> pro porovnávání řetězců do patřičných míst a pracovat s 'ch' jako
> s dvojicí znaků (včetně porovnávání řetězců).

Skutečně úplně "nejlepší" je takové "řešení", které bude působit co
nejvíce problémů i v budoucnosti. Zanechte vymýšlení blbostí, česká
norma pro třídění má svoji logiku, i když je možná pro většinu lidí
stejně nepochopitelná, jako ovládání editoru vim. Jediné, co by se
mělo udělat (pokud k tomu už nedošlo), je rozšířit příslušnou normu
o dodatek, že strojové třídění je možné provádět zjednodušeně, např.
podle Olšákova výkladu. Počítače to umí, tak proč ničit něco, co je
zavedené.

Honza Pazdziora <adelton na fi.muni.cz> wrote:
> Obávám se, že knihovníci se s Vámi o zjednodušování normy nebudou
> ochotni bavit. :-) Nicméně to, co dělají locales nebo to co dělá MySQL
> je právě ono rozumné zjednodušení, které dovoluje to v reálném čase
> spočítat a pro většinu vstupů a pro většinu pozorovatelů to dá
> výsledky nerozpoznatelné od výsledků normy. Pro mě je výklad normy
> podle pana Olšáka tou správnou definicí, vyhovující většině
> počítačových potřeb.

Komu se to nelíbí, ať se odstěhuje do Japonska a uvidí, jaké je to
používat naprosto nevhodné prostředky (čínské písmo) pro práci
s jazykem. Může také Japoncům pomáhat prznit další programy, aby
středoevropanům nefungovaly (jako less, tcsh, groff).

S pozdravem
--
                          ***  Petr Kolar  ***
 Department of Information Technologies, Technical University of Liberec
             Voronezska 1329, 461 17 Liberec, Czech Republic
             Phone: +420-48-535-2371   Fax: +420-48-535-2229
      E-mail: Petr.Kolar na vslib.cz  http://www.kit.vslib.cz/~kolar/



Další informace o konferenci Linux