RE: Použitelnost

Úterý Leden 6 20:55:39 CET 2009

Myslel jsem to jinak, pokusím se vysvětlit.

Převod z OCR mě opravdu netrápí. Úspěšnost je vysoká, opravy textu prakticky žádné, opravy bloků v rozumné míře.

Fultextové vyhledávání jako takové taky neřeším, nástrojů je mnoho. Jde mi o něco jiného. O fultextové vyhledávání bez fultextu, tedy jen pomocí indexu.

To je odpověď i na otázku legálnosti. Pokud bude na webu jen index, tedy seznam slov, je nelegálnost vyloučena. Ledaže by mě někdo žaloval, že slovo xy  vymyslel on. :-)

Hledám tedy nástroj, který vytvoří index a druhý nástroj, který v něm bude hledat.

Výsledkem nebude konkrétní informace, ale jen odkaz, kde se informace nachází (v papírové podobě).

m

> ------------ Původní zpráva ------------
> Od: Jan Tošovský <j.tosovsky na tiscali.cz>
> Předmět: RE: Použitelnost
> Datum: 06.1.2009 19:47:13
> ----------------------------------------
> > vysledkem meho snazeni by mel byt fultextove 
> > prohledavatelny index, umisteny na webu. 
> 
> nedavno jsem narazil na Lucene, myslim ze to, pripadne jeho uzivatelsky
> prijemnejsi derivat Solr, se blizi tomu co hledate. 
> 
> Da se nadefinovat urcita struktura dat a pri hledani pak lze specifikovat, v
> kterych 'polich' hledat. Vysledkem hledani je strukturovany vypis. Je pak na
> programatorovi webu, jak si s tim pohraje. Muze to byt prosty vypis clanku,
> ale stejne tak prehled kategorii atd.
> 
> > Prvni otazka zni, jakým nástrojem převést výstup z OCR (txt, 
> > html, pdf ...) do xml.
> 
> Otazka co je to za casopisy a nakolik je ta aktivita legalni. Osobne bych
> zacal u tvurcu, kteri by mohli mit ty zdroje v digitalni podobe. 
> 
> Ja kdyz pred casem digitalizoval jednu starsi publikaci, cele jsem to
> prepsal. Technicky neslo udelat lepsi sken a diky tomu byla celkem velka
> chybovost OCR prevodu. Kdyz by se secetl cas na sken, dodatecnou upravu
> podkladu, vlastni OCR, korektura a opravy, bylo to rychlejsi a primocarejsi
> prepsat. Tady by slo vyuzit jeste nejakeho docbook WYSIWYG nastroje, ktery
> jsem tehdy k dispozici nemel. Tim by odpadla i nasledna konverze do DocBooku
> z nastroju typu Word :-)
> 
> Jinak pro Solr je treba zvazit, jaky bude finalni vystup - zda se bude
> vysledna stranka tvorit dynamicky, nebo bude v indexu nejaka staticka html
> stranka. V druhem pripade je totiz nutne napred pomoci filtru potlacit
> pritomne tagy, aby se v nich nehledalo. Lepsi je mozna sat data primo z
> databaze. Pak mi ale prijde docbook jako zbytecny meziclanek.
> 
> _______________________________________________
> Docbook mailing list
> Docbook na linux.cz
> http://www.linux.cz/mailman/listinfo/docbook
> 
> 
>