Projekt spell checker pro cestinu

Petr Kolar PETR.KOLAR na vslib.cz
Čtvrtek Říjen 29 09:19:17 CET 1998


Podařilo se mi vyštrachat asi 40000 českému spell checkeru neznámých slov,
takže jsem si řekl, že toho je na jednoho člověka příliš....

                   Projekt Spell checker pro češtinu

Cílem projektu je vytvořit kvalitní nástroj pro kontrolu pravopisu (nebo
spíše pro vyhledávání překlepů) pro české texty na bázi spell checkeru
ispell. Výsledný produkt bude mít GNU licenci.

                            Výchozí stav

V současnosti existuje funkční český slovník pro ispell od Tomáše
Čermáka (http://hlava22.fsv.cvut.cz/~cermak/ispell/). Tento slovník však
má několik nedostatků:

- malý rozsah
- obsahuje i množství špatných tvarů slov (odhadem několik procent)
- opomíjí některé tvary slov (například trpný rod sloves)

V rámci projektu by mělo dojít k rozšíření tohoto slovníku a odstranění
jeho dalších nedostatků.

                          Rozpis činností

 1) Revize souboru afixů
 2) Úprava stávajícího slovníku pro nový soubor afixů
 3) Menší rozšíření slovníku
 4) Doplnění slovníku o odvozená slova
 5) Otestování generovaných tvarů slov
 6) Případné opakování činností 1, 2 a 5 (podle výsledků činnosti 5)
 7) Vytvoření seznamů chybějících slov z dostupných českých textů
 8) Sloučení seznamů z bodu 7, retrográdní setřídění a rozdělení na bloky
 9) Úprava seznamu z předchozího bodu (revize, převod na základní tvary a
    doplnění flagů)
10) Rozšíření slovníku o nové položky, vygenerování nového seznamu tvarů
    a jeho zveřejnění
11) Případné opakování činností 7 až 10

K jednotlivým činnostem:

          1. Revize souboru afixů

Účelem je eliminace nesprávných tvarů generovaných ispellem a rozšíření
možností ohýbání slov (slova typu Antarktis, housle, kalhoty a další;
doplnění generování tvarů trpného rodu apod.)

          2. Úprava stávajícího slovníku pro nový soubor afixů

Je nezbytná vzhledem ke změnám souboru afixů. Současný slovník také
obsahuje mnoho slov bez flagů nebo s nesprávnými flagy.

          3. Menší rozšíření slovníku

Rozšíření slovníku o některá slova uvedená v mluvnici češtiny a použitá
v bodech 1 a 2.

          4. Doplnění slovníku o odvozená slova

Rozšíření slovníku o slova odvozená ze slov obsažených ve slovníku -
například ke slovu stroj doplnit slova nástroj, postroj, přístroj, ústrojí
strojní, strojový, strojírenský, nástrojárna, ústrojný, strojit, ustrojit,
atd..

          5. Otestování generovaných tvarů slov

Vygenerování všech tvarů slov a jejich revize s účelem nalezení nesprávně
vygenerovaných tvarů. Pokud nejsou právní překážky, provést kontrolu
komerčním spell checkerem, spell checkerem od CSTUGu apod., jinak pouze
zběžná kontrola (vzhledem k více než čtvrt milionu tvarů).

          6. Případné opakování bodů 1, 2 a 5

Při nalezení vážných nedostatků v bodě 5.

          7. Vytvoření seznamů chybějících slov z dostupných českých textů

Činnost, do které je možné zapojit značný počet lidí, kteří si buď mohou
zkontrolovat svoje texty a zaslat uživatelský slovník (to je interaktivní
práce, kontrola delších textů může být díky nedokonalosti slovníku
zdlouhavá) nebo pouze vygenerovat seznam slovních tvarů, které spell
checker nezná.

          8. Sloučení seznamů z bodu 7, retrográdní setřídění
             a rozdělení na bloky

Cílem je vytvořit velký (očekává se řádově desítky tisíc slov) seznam
slov chybějících ve slovníku. Seznam bude setříděn jako by slova byla
napsána pozpátku, aby se usnadnilo doplňování flagů v následujícím bodě.

          9. Úprava seznamu z bodu 8

Značné množství práce, kterou ovšem může dobře provádět větší počet lidí.
Je potřeba vyházet skutečné překlepy, speciální, málo používané zkratky a
nečeská slova. Zbylá slova je třeba převést na základní tvary a doplnit
flagy, které určují, jak se slovo ohýbá nebo jak se z něj odvozují jiná
slova.

Po skončení činností 2, 3, 4 a 10 bude k dispozici nová verze dat pro
ispell i pro běžné uživatele.

Na činnostech 4 a 5 a zejména 9 se může podílet větší počet osob. Na
činnosti 10 může spolupracovat kdokoli, kdo má k dispozici rozumné české
texty (spisovné a bez velkého množství překlepů).

                    Odměna účastníkům projektu

Dobrý pocit z výsledného (jistě nejlepšího) spell checkeru. ;-) Případní
sponzoři jsou vítáni.

                           Aktuální stav

Ukončení činností 2 a 3 se předpokládá v průběhu listopadu 1998, ukončení
první iterace až po činnost 10 v první polovině roku 1999.

--
                          ***  Petr Kolar  ***
 Department of Information Technologies, Technical University of Liberec
             Voronezska 1329, 461 17 Liberec, Czech Republic
             Phone: +420-48-535-2371   Fax: +420-48-535-2229
  E-mail: Petr.Kolar na vslib.cz  http://asterix.vslib.cz/staff/kolar.html


Další informace o konferenci Linux