Chyba v triedeni cs_CZ & sk_SK

Středa Květen 28 17:12:40 CEST 2003

On Wed, May 28, 2003 at 04:53:21PM +0200, Petr Kolar wrote:

> Prakticky vždycky. Případy, kdy se jedná o c+h, jsou uměle vycucané z prstu

To sice ano, ale pořád existují. Dokud existují (a nemusejí existovat
aktuálně, stačí potenciálně), nelze porovnávání řetěžců podle české
normy algoritmizovat. To je velký a principiální problém.

> Současný stav je docela v pohodě.

Současný stav není ani trochu v pohodě. Jazykovědci vymysleli nějaká
"pravidla", která nejsou schopni ani jasně a jednoznačně formulovat.
My podle těchto "pravidel" máme psát programy.

Možná vám to nepřipadá, ale problém, zda je 'ch' písmeno nebo dvě
písmena, je skutečně podstatný problém. V současné době je to tak,
že tam kde pracujete s jazykem ručně, je to jedno písmeno, tam, kde
ho zpracováváte strojově, to jsou dvě písmena. Tam, kde převádíte
jednu formu na druhou (třeba zpracování ručně vyplněných formulářů),
narazíte na problémy. Proto jsem navrhoval dvě alternativy, jak tento
rozpor řešit: buď to bude vždy jedno písmeno nebo vždy dvě písmena.

> Skutečně úplně "nejlepší" je takové "řešení", které bude působit co
> nejvíce problémů i v budoucnosti. Zanechte vymýšlení blbostí, česká
> norma pro třídění má svoji logiku, i když je možná pro většinu lidí
> stejně nepochopitelná, jako ovládání editoru vim. Jediné, co by se

Logika ovládání editoru vim je pro mne pochopitelná, přestože mi to
ovládání nepřipadá praktické ani vhodné. Oproti tomu logika porovnávání
řetězců pro mne pochopitelná není. Celá konstrukce začíná tím, že při
porovnávání dvou řetězců, které se provádí výhradně v psané formě,
se vychází téměř úplně z mluvené formy. A to ještě ne stoprocentně.
Navíc spousty zbytečných a umělých komplikací způsobují, že výklad
té normy je nejednoznačný a nealgoritmizovatelný.

> mělo udělat (pokud k tomu už nedošlo), je rozšířit příslušnou normu
> o dodatek, že strojové třídění je možné provádět zjednodušeně, např.
> podle Olšákova výkladu. Počítače to umí, tak proč ničit něco, co je
> zavedené.

To je přesně to, co kritizujete. Tím docílíte toho, že nebude existovat
jednotná definice porovnávání řetězců (stejně jako dnes). Navíc řazení
slov bude záviset na tom, zda ho provádí člověk nebo počítač. To mi moc
nepřipadá jako bezproblémové řešení. Pokud by se norma pro porovnávání
řetězců měla zjednodušit (jako že by měla), pak by měla být ale v každém
případě stejná bez ohledu na to, kdo porovnává.

                                                         Michal Kubeček