LEMATIZACE

Ondrej Cikhart cikhart na byll.cz
Čtvrtek Květen 25 11:52:05 CEST 2000



 
 Dobry den,
 nerad bych, aby se zapomnelo na jeste jeden lematizator, ktery (podle
 meho soudu) bude asi nejuplnejsi a nejrozchozenejsi. Je to lematizator
 od Jana Hajice z Ustavu Formalni a Aplikovane lingvistiky MFF UK
 (ufal.mff.cuni.cz), ktery se pouziva napriklad ve fulltextovem
 vyhledavani pro ASPI (www.aspi.cz), ale hlavne a zejmena se pouziva pro
 tagging Ceskeho Narodniho Korpusu. Myslim, ze kdysi se pouzil i jako
 spellchecker pro nejaky ProLector, nebo MS aplikaci(?), ale o tom moc
 nevim. Funguje na vsech platformach, snad krome Apple, a pouziti je
 velmi snadne. Navic funguje i pro slovenstinu a nekde je snad i polstina
 :).
> 
> Jan Vitek wrote:
> % Dobry den,
> % 
> % jiz delsi dobu resim problem, jak rozchodit fulltextove vyhledavani v
> % cestine. Zajimalo by me, jestli pod linuxem existuje nejaka knihovna
> % / nastroj, ktery by na vstupu dostal ceske slovo a na vystupu by
> % se objevilo toto slovo v zakladnim tvaru (co je to zakladni tvar
> % slova ani presne nevim, ale snad je intuitivne zrejme o co mi jde).
> 
> Lingviste tomu rikaji 'lemma' :-). Osobne vim o 3 lemmatizatorech:
>  - lemma - komrecni produkt Pavla Sevecka
>  - ajka - GPL software vytvareny na Fak. informatiky MU
>  - ispell - neni to sice uplne lemmatizator, ale k danemu ucelu mozna
> pujde
>             pouzit
>  
> Podivejte se na http://charon.fi.muni.cz/~xpovolny/htdig/.
> Pokud je to to, co hledate popozente autory at to dotahnou do konce co
> pred rokem slibili :-).
> 
> 
> --mm
> 



Další informace o konferenci Linux