RE: Použitelnost
Jan Tošovský
j.tosovsky na tiscali.cz
Úterý Leden 6 19:46:53 CET 2009
> vysledkem meho snazeni by mel byt fultextove
> prohledavatelny index, umisteny na webu.
nedavno jsem narazil na Lucene, myslim ze to, pripadne jeho uzivatelsky
prijemnejsi derivat Solr, se blizi tomu co hledate.
Da se nadefinovat urcita struktura dat a pri hledani pak lze specifikovat, v
kterych 'polich' hledat. Vysledkem hledani je strukturovany vypis. Je pak na
programatorovi webu, jak si s tim pohraje. Muze to byt prosty vypis clanku,
ale stejne tak prehled kategorii atd.
> Prvni otazka zni, jakým nástrojem převést výstup z OCR (txt,
> html, pdf ...) do xml.
Otazka co je to za casopisy a nakolik je ta aktivita legalni. Osobne bych
zacal u tvurcu, kteri by mohli mit ty zdroje v digitalni podobe.
Ja kdyz pred casem digitalizoval jednu starsi publikaci, cele jsem to
prepsal. Technicky neslo udelat lepsi sken a diky tomu byla celkem velka
chybovost OCR prevodu. Kdyz by se secetl cas na sken, dodatecnou upravu
podkladu, vlastni OCR, korektura a opravy, bylo to rychlejsi a primocarejsi
prepsat. Tady by slo vyuzit jeste nejakeho docbook WYSIWYG nastroje, ktery
jsem tehdy k dispozici nemel. Tim by odpadla i nasledna konverze do DocBooku
z nastroju typu Word :-)
Jinak pro Solr je treba zvazit, jaky bude finalni vystup - zda se bude
vysledna stranka tvorit dynamicky, nebo bude v indexu nejaka staticka html
stranka. V druhem pripade je totiz nutne napred pomoci filtru potlacit
pritomne tagy, aby se v nich nehledalo. Lepsi je mozna sat data primo z
databaze. Pak mi ale prijde docbook jako zbytecny meziclanek.
Další informace o konferenci Docbook