Cesky slovnik pro ispell

Jan Kybic kybic na circhp.epfl.ch.epfl.ch
Středa Říjen 8 14:52:07 CEST 1997


>> A ted dirty trick:
>> Co takhle prelozit  libovolnym komercnim slovnikem cesky slovnik pro
>> ispell? (Chtelo by to pravnika, ale mozna ze by to proslo ;-)

Nepochopil jsem mozna, co tim puvodni autor chtel rici, ale jestli se
jednalo o to, jak ziskat cesky slovnik pro ispell, tak vezte, ze
bohuzel opravdu nestaci vzit anglickou verzi a nejak ji strojove
prelozit. Slovnik je totiz dost znacnym zpusobem komprimovan, typicky
obsahuje koreny slov + mnozinu vsech pripustnych predpon a
pripon. Napriklad pokud spell-checker narazi na slovo
'nerozdelatelny', rozlozi si ho na 'ne'+'roz'+'del'+'atelny', najde si
u korene 'del', ze by to mohlo byt sloveso vzoru 'dela' a ze
pripony a predpony jsou pripustne.

Slovnik nemuze byt nekomprimovany, ruznych tvaru slov jsou totiz v
cestine doslova miliony -existuji desetitisice korenu, z kterych jsou
slova odvozovana az stovkami zpusobu.

Kdysi jsem snil o nejake automaticke procedure, ktera by vzala nejaky
cesky text a vytvorila takovy minimalni slovnik, kterym by akceptoval
vsechna slova z dokumentu a zadna jina. Problem je jednak v tom, ze je
to obtizny problem, spise namet na diplomovou praci, nez neco, co se
da napsat za tyden. Za druhe tezko sezeneme cesky text obsahujici vice
nez nekolik tisic ruznych slov, nebot aktivni slovni zasoba jednoho
autora je pochopitelne omezena. Proto si myslim, ze slovnik pro ispell
musi udelat clovek, ktery vidi do ceske gramatiky, ktery si uvedomi
potrebne souvislosti. Je to ovsem dost prace, mozna vice, nez delat
slovnik prekladovy. A takovy dobry kapesni cizojazicny prekladovy slovnik
pripravuje kolektiv autoru nekolik let.

Honza

-- 
-------------------------------------------------------------------------
Jan Kybic <xkybic na sun.felk.cvut.cz>        (Muzete psat i s diakritikou) 
http://cmp.felk.cvut.cz/~kybic/       tel. 42-2-301 88 26
For PGP key finger kybic na fu.felk.cvut.cz or see my WWW page.


Další informace o konferenci Linux