Re: ANNOUNCE: český slovník pro ispell

Petr Kolar PETR.KOLAR na vslib.cz
Pátek Leden 22 09:17:38 CET 1999


"Jan ' Kozo ' Vajda" <jvajda na somi.sk> wrote:
> kedysi davno som mailoval Tomášovi Čermákovi ( od ktoreho mi neprisla ziadna
> odpoved ... aspon sa nepamatam ), tak to skusam opat ..

   Bohužel i mně Tomáš Čermák odpověděl pouze na jeden dopis a doposud ani
neodsouhlasil převedení slovníku pod GNU licenci, přestože se někdy v říjnu
zmiňoval, že to s příští verzí chce udělat. Teď pomalu lituji, že jsem
rozšiřoval jeho slovník a soubor pravidel...

> pozeral som si one dva subory a zistil som, ze one subory su v podstate
> nejake textove files .. tak ma napadlo, ze mozno by ( ked vezmeme dost velku
> pribuznost slovenciny a cestiny ) to slo preportovat do (locale sk)
> ( nie slovnik, ale nejake zakonitosti .. 7 padov je tak ci tak .. vzory su
> tak, ci tak )
>
> chapem, ze nie jednoducho ( a mozno by som sa na to aj dal ) .. ale
> potreboval by som niekoho, kto by mi vysvetlil ( aspon strucne, alebo ma
> nasmeroval ) zaklady struktury tych suborov ..

   Struktura souborů není až zas tak složitá. Slovník czech.a-z obsahuje
vždy na každém řádku slovo, za kterým může být lomítko a seznam příznaků,
(flagů) které určují, jak se slovo ohýbá (nebo jak se z něj odvozují jiná
slova). Vzhledem k tomu, že ispell je většinou přeložen tak, aby umožňoval
používání pouze 26 příznaků (A až Z), snažil jsem se do tohoto čísla vejít.
Kvůli tomu jsem nezahrnul přechodníky, ale zatím mi ještě dva příznaky
zbývají.

   Soubor afixů obsahuje (kromě nějakého úvodu, který můžete beze změny
převzít) definice jednotlivých příznaků. Příznaky je možné používat buď
pro prefixy (předpony) nebo pro sufixy (přípony, koncovky). V czech.aff
jsem použil čtyři příznaky pro prefixy (N pro ne-, E pro nej-, W pro
ne-, nej- a nejne-, a G pro číselné složeniny jedna-, dvaa-, třia-, ...
devěta-), zbytek pro sufixy. Pokud se mají vytvářet všechny kombinace
afixů a sufixů, musí být před názvem příznaku v řádku flag X: uvedena
hvězdička (flag *X:). Každému sufixu je přiřazena sada pravidel tvarů

     [^AEOKL] > A
     A, -A, OVÉ
     [^Z] E Ď > -Ď, DI
     A > -A, -

První pravidlo říká, že jeden z tvarů slova, které má uveden příslušný
příznak, a které nekončí na a, e, o, k nebo l, se dostane přidáním
koncovky -a na konec slova (jako pán -> pána). Druhé pravidlo, že slova,
která končí na a je možné ohýbat nahrazením tohoto koncového -a koncovkou
-ové (předseda -> předsedové). Třetí pravidlo, že u slov, která končí na
-eď, ale ne -zeď, může být koncovka -ď nahrazena koncovkou -di (čeleď ->
čeledi). Čtvrté, že koncovku -a lze vypustit (žena - > žen).

   Díky tomu, že použití jednotlivých pravidel lze podmínit i koncovkou,
lze v zásadě s 26 příznaky vystačit i pro češtinu (ispell lze přeložit
i pro používání 64 příznaků, ale tomu jsem se chtěl pokud možno vyhnout).
Díky tomu je třeba příznak Y použit na skloňování přídavných jmen podle
vzorů mladý i jarní, ale i otcův, matčin a dokonce i pro slova kdo, někdo,
nikdo, můj apod..

   Nemám představu, do jaké míry by bylo schůdné upravit soubor afixů pro
slovenštinu. Sám jsem na tomto pracoval asi dva měsíce a ještě teď občas
něco přidám nebo opravím. Poslední větší změna, která čeká soubor afixů
(s výjimkou zmíněných přechodníků) je odstranění koncovek -i, -ové, -é
z příznaků P, D, případně U (tam se jedná o všechny koncovky s výjimkou
-é, takže slova s příznakem D budou mít nově příznaky PD) a doplnění
příslušných slov ve slovníku o příznaky I (pro koncovku -i), V (-ové)
a D (-é).

                                                  S pozdravem
--
                          ***  Petr Kolar  ***
 Department of Information Technologies, Technical University of Liberec
             Voronezska 1329, 461 17 Liberec, Czech Republic
             Phone: +420-48-535-2371   Fax: +420-48-535-2229
  E-mail: Petr.Kolar na vslib.cz  http://asterix.vslib.cz/staff/kolar.html


Další informace o konferenci Linux