Použitelnost

Úterý Leden 6 12:58:08 CET 2009

S DocBookem nemam praktické zkusenosti a budu rad, kdyz mi pomuzete zjistit, jestli je 

vhodny pro mnou zamyslene pouziti.

Skenuji odborny casopis a pomoci OCR ho prevadim na text. vysledkem meho snazeni by mel byt 

fultextove prohledavatelny index, umisteny na webu. Vstupem do webovskeho vyhledavace by 

mělo bt klicove slovo nebo fraze a doplnujici informace. Temi mam na mysli napr. rocnik 

casopisu, hledani pouze v nadpisech, hledani pouze ve stručnem obsahu atd. Vystupem pak oblast vyskytu slova, nejlepe v kontextu, rocnik casopisu, cislo strany, nadpis clanku a stručny obsah.

Predpokladam, ze meziformatem pro index by byl xml. V nem bych definoval, co jsou nadpisy, 

co je text, co je cislo strany, co je strucny obsah a o ktery rocnik casopisu jde.

Prvni otazka zni, jakým nástrojem převést výstup z OCR (txt, html, pdf ...) do xml. Pokud 

možno, alespoň z části automatizovaně. Nadpisy jsou psány jiným fontem, než zbytek textu, 

cisla stran maji specificke umisteni ... - toho vseho by se dalo vyuzit pri poloautoaticke 

konverzi do xml. Predpokladam, ze takovy nastroj neexistuje, ale radeji se ptam.

Druha otazka se tyka indexoveho souboru pro fultextove vyhledavani. Jakym nastrojem tento soubor vytvorit? Na netu by mel byt umisten pouze tento index, bez zdrojovych textu.

Bohužel jsem na netu vubec na tuto problematiku nenarazil.

Dekuji za nasmerovani.

m