LEMATIZACE
Ondrej Cikhart
cikhart na byll.cz
Čtvrtek Květen 25 11:52:05 CEST 2000
Dobry den,
nerad bych, aby se zapomnelo na jeste jeden lematizator, ktery (podle
meho soudu) bude asi nejuplnejsi a nejrozchozenejsi. Je to lematizator
od Jana Hajice z Ustavu Formalni a Aplikovane lingvistiky MFF UK
(ufal.mff.cuni.cz), ktery se pouziva napriklad ve fulltextovem
vyhledavani pro ASPI (www.aspi.cz), ale hlavne a zejmena se pouziva pro
tagging Ceskeho Narodniho Korpusu. Myslim, ze kdysi se pouzil i jako
spellchecker pro nejaky ProLector, nebo MS aplikaci(?), ale o tom moc
nevim. Funguje na vsech platformach, snad krome Apple, a pouziti je
velmi snadne. Navic funguje i pro slovenstinu a nekde je snad i polstina
:).
>
> Jan Vitek wrote:
> % Dobry den,
> %
> % jiz delsi dobu resim problem, jak rozchodit fulltextove vyhledavani v
> % cestine. Zajimalo by me, jestli pod linuxem existuje nejaka knihovna
> % / nastroj, ktery by na vstupu dostal ceske slovo a na vystupu by
> % se objevilo toto slovo v zakladnim tvaru (co je to zakladni tvar
> % slova ani presne nevim, ale snad je intuitivne zrejme o co mi jde).
>
> Lingviste tomu rikaji 'lemma' :-). Osobne vim o 3 lemmatizatorech:
> - lemma - komrecni produkt Pavla Sevecka
> - ajka - GPL software vytvareny na Fak. informatiky MU
> - ispell - neni to sice uplne lemmatizator, ale k danemu ucelu mozna
> pujde
> pouzit
>
> Podivejte se na http://charon.fi.muni.cz/~xpovolny/htdig/.
> Pokud je to to, co hledate popozente autory at to dotahnou do konce co
> pred rokem slibili :-).
>
>
> --mm
>
Další informace o konferenci Linux