RE: Použitelnost

Úterý Leden 6 19:46:53 CET 2009

> vysledkem meho snazeni by mel byt fultextove 
> prohledavatelny index, umisteny na webu. 

nedavno jsem narazil na Lucene, myslim ze to, pripadne jeho uzivatelsky
prijemnejsi derivat Solr, se blizi tomu co hledate. 

Da se nadefinovat urcita struktura dat a pri hledani pak lze specifikovat, v
kterych 'polich' hledat. Vysledkem hledani je strukturovany vypis. Je pak na
programatorovi webu, jak si s tim pohraje. Muze to byt prosty vypis clanku,
ale stejne tak prehled kategorii atd.

> Prvni otazka zni, jakým nástrojem převést výstup z OCR (txt, 
> html, pdf ...) do xml.

Otazka co je to za casopisy a nakolik je ta aktivita legalni. Osobne bych
zacal u tvurcu, kteri by mohli mit ty zdroje v digitalni podobe. 

Ja kdyz pred casem digitalizoval jednu starsi publikaci, cele jsem to
prepsal. Technicky neslo udelat lepsi sken a diky tomu byla celkem velka
chybovost OCR prevodu. Kdyz by se secetl cas na sken, dodatecnou upravu
podkladu, vlastni OCR, korektura a opravy, bylo to rychlejsi a primocarejsi
prepsat. Tady by slo vyuzit jeste nejakeho docbook WYSIWYG nastroje, ktery
jsem tehdy k dispozici nemel. Tim by odpadla i nasledna konverze do DocBooku
z nastroju typu Word :-)

Jinak pro Solr je treba zvazit, jaky bude finalni vystup - zda se bude
vysledna stranka tvorit dynamicky, nebo bude v indexu nejaka staticka html
stranka. V druhem pripade je totiz nutne napred pomoci filtru potlacit
pritomne tagy, aby se v nich nehledalo. Lepsi je mozna sat data primo z
databaze. Pak mi ale prijde docbook jako zbytecny meziclanek.