Chyba v triedeni cs_CZ & sk_SK

Martin `MJ' Mares mj na ucw.cz
Čtvrtek Květen 29 15:21:17 CEST 2003


> Tím jedním písmenem máte na mysli předpokládám to, že se nepřipouští
> výjimka typu "mochodně", dvojice znaků "ch" se vždy řadí mezi "h"
> a "i". Proč to ale je nutné vázat na to, že to bude i vnitřně
> reprezentováno jako jeden znak? S tím, jak řadit dvojici znaků "ch"
> přece žádný technický problém není.

Jiz nekolikrate padlo, ze v tom je problem dost zasadni, a to ten, ze
dvojice pismen "ch", ktera neni <ch>, neni zadnou extremni vyjimkou,
nybrz zjevem dosti castym, minimalne jsou-li soucasti toho, co radime,
cizi jmena (coz v pripade telefonnich seznamu a ruznych jinych
ucebnicovych i realnych prikladu razeni typicky nastava).

Jsou v zasade tri moznosti, jak se s tim poprat:

(0) "ch" vzdy pokladat za <c><h>, jinymi slovy se o zadnou chytristiku
    nesnazit. To delaji "hloupe" programy.

(1) "ch" vzdy pokladat za <ch>.
    To delaji "chytre" programy.

(2) ridit se normou a rozpoznavat, kdy "ch" znamena <ch> a kdy <c><h>.
    To se snazi delat lide, ale v praxi s tim i oni maji problemy (je
    treba pan Chomsky Slovan, takze by se mel radit pod <Ch> nebo
    American, takze pod <Ch> nejspis nepatri?), tudiz tam, kde to neni
    jasne, se i lide tezko shodnou a spis osciluji mezi (1) a (2).

Hlavni problem je, ze (2) podle vseho neni algoritmizovatelne (a libovolna
algoritmicka aproximace, zda se, potrebuje velky slovnik) a ani (1) ani (2)
se neshoduji s tim, co lide implicitne ocekavaji.

To povazuji za zakladni problem -- pravidla proste musi byt takova, aby se
vsichni zucastneni (at uz lide nebo pocitace) shodli na tom, jak maji byt
libovolna konkretni slova (modulo malicka mnozina vyjimek, ale opravdu jen
malicka) razena, jinak ma pramaly smysl nejaka globalni pravidla zavadet.

Takze je asi na case neco zmenit: budto schopnosti programu interpretovat
text (coz nevime, jak udelat) nebo pravidla samotna, coz je cesta sice
trnita (uzivatele si budou muset zvyknout na zmenu), ale narozdil od cest
ostatnich vede k cili :-)

Soucasna norma, jak uz bylo receno, dovoluje pri pocitacovem zpracovani
pouzivat zjednodusena pravidla, takze navrhuji, aby se vytvoril standard,
ktery bude rikat, jake presne zjednoduseni se ma pouzivat, aby bylo
algoritmizovatelne a i pro cloveka snadno pochopitelne.

Co si myslim, ze by se melo zmenit:

(a) nadefinovat, co presne je "ch", tedy rozhodnout se pro (0) nebo (1).

(b) nadefinovat presne poradi nepismenkovych znaku, napriklad rici, ze
    je podle Unicode.

(c) ucinit trideni ciste syntaktickou zalezitosti, bez jakehokoliv vztahu
    k semantice textu. Tedy napriklad neosetrovat rimska cisla a podobne veci.

				Have a nice fortnight
-- 
Martin `MJ' Mares   <mj na ucw.cz>   http://atrey.karlin.mff.cuni.cz/~mj/
Faculty of Math and Physics, Charles University, Prague, Czech Rep., Earth
return(EIEIO); /* Here-a-bug, There-a-bug... */


Další informace o konferenci Linux