Chyba v triedeni cs_CZ & sk_SK

Michal Kubecek mike na mk-sys.cz
Středa Květen 28 11:24:03 CEST 2003


On Wed, May 28, 2003 at 11:13:23AM +0200, Kilian Igor wrote:
> Nuz pri ch ako pismenku protestujem. Napriklad
> take slovo: viachodnotny
> Je tam sice pisme c a h za sebou, ale nie je to
> ch. Cize treba to radit v normalnom poradi (c je 
> za b) a nie ako ch (ch je za h). Urcite sa najde
> aj viac takychto slov.

To je právě ten hlavní problém. Není možné algoritmicky poznat,
zda je posloupnost 'ch' dvojicí písmen 'c', 'h' nebo jedním
písmenem 'ch'. Přesto jazykovědci trvají na tom, že (aspoň
v češtině) je 'ch' písmeno. Tedy někdy.

Současný stav je nekonzistentní a přínáší řadu problémů. Možná
řešení jsou dvě:

1. Zavést 'ch' jako znak, alokovat pro něj Unicode reprezentaci
a upravit veškerý software tak, aby s touto reprezentací pracoval.
Pak bude vždy jasné, zda se jedná o jeden znak nebo dvojici znaků.
Vzniká ale samozřejmě otázka, co dělat s ne-Unicode softwarem.

2. Odkázat jazykovědce s jejich mlhavě formulovanými "pravidly"
pro porovnávání řetězců do patřičných míst a pracovat s 'ch' jako
s dvojicí znaků (včetně porovnávání řetězců).

Osobně hlasuji pro variantu 2.

                                                 Michal Kubeček


Další informace o konferenci Linux