Chyba v triedeni cs_CZ & sk_SK

Petr Kolar Petr.Kolar na vslib.cz
Čtvrtek Květen 29 18:13:33 CEST 2003


"Martin `MJ' Mares" <mj na ucw.cz> wrote:
> Jiz nekolikrate padlo, ze v tom je problem dost zasadni, a to ten, ze
> dvojice pismen "ch", ktera neni <ch>, neni zadnou extremni vyjimkou,
> nybrz zjevem dosti castym, minimalne jsou-li soucasti toho, co radime,
> cizi jmena (coz v pripade telefonnich seznamu a ruznych jinych
> ucebnicovych i realnych prikladu razeni typicky nastava).
>
> Jsou v zasade tri moznosti, jak se s tim poprat:
>
> (0) "ch" vzdy pokladat za <c><h>, jinymi slovy se o zadnou chytristiku
>     nesnazit. To delaji "hloupe" programy.
>
> (1) "ch" vzdy pokladat za <ch>.
>     To delaji "chytre" programy.
>
> (2) ridit se normou a rozpoznavat, kdy "ch" znamena <ch> a kdy <c><h>.
>     To se snazi delat lide, ale v praxi s tim i oni maji problemy (je
>     treba pan Chomsky Slovan, takze by se mel radit pod <Ch> nebo
>     American, takze pod <Ch> nejspis nepatri?), tudiz tam, kde to neni
>     jasne, se i lide tezko shodnou a spis osciluji mezi (1) a (2).

Ještě tady nikdo neukázal české slovo, ve kterém `ch' znamená `c' `h'.
Tedy takové, které už někdo použil (k něčemu jinému, než k důkazu, že
takové slovo existuje). V tom případě se dostávame k relativním četnostem,
které se blíží pravděpodobnosti změny bitu v počítači následkem kosmického
záření a jsme dost hluboko pod četností chyb v sebelépe opravených textech.
Čili vaše starosti bych chtěl mít... ale raději ty Rotschildovi peníze :-)

Co se týče cizích slov - skutečně v ČSN je, že v cizích slovech se má ch
považovat za `c' `h', nikoli za `ch' (nebo někdy tak a jindy tak)? Pokud
se Chomsky čte s `č' na začátku (a Christmas s `k'), proč by se neměl
řadit za H? V angličině se nejspíš najdou slova, ve kterých je šev mezi
`c' a `h', ale kolik se jich vyskytne v rejstřících vyrobených z českých
textů? Tuším, že v němčině, španělštině, italštině to vypadá podobně.
A řadit pana Chalupu podle toho, jestli je Čech nebo Američan, je naprostý
nesmysl.

> Hlavni problem je, ze (2) podle vseho neni algoritmizovatelne (a libovolna
> algoritmicka aproximace, zda se, potrebuje velky slovnik) a ani (1) ani (2)
> se neshoduji s tim, co lide implicitne ocekavaji.

×ekl bych, že většina Čechů se naučí ve škole, že `ch' se řadí za `h',
takže očekávají (1).

> Co si myslim, ze by se melo zmenit:
>
> (a) nadefinovat, co presne je "ch", tedy rozhodnout se pro (0) nebo (1).
>
> (b) nadefinovat presne poradi nepismenkovych znaku, napriklad rici, ze
>     je podle Unicode.
>
> (c) ucinit trideni ciste syntaktickou zalezitosti, bez jakehokoliv vztahu
>     k semantice textu. Tedy napriklad neosetrovat rimska cisla a podobne veci.

Naprostý souhlas. A řekl bych, že s (1) je to ten Olšákův výklad.

S pozdravem
--
                          ***  Petr Kolar  ***
 Department of Information Technologies, Technical University of Liberec
             Voronezska 1329, 461 17 Liberec, Czech Republic
             Phone: +420-48-535-2371   Fax: +420-48-535-2229
      E-mail: Petr.Kolar na vslib.cz  http://www.kit.vslib.cz/~kolar/



Další informace o konferenci Linux