RE: Převod doc na xml

Jan Tosovsky j.tosovsky na tiscali.cz
Čtvrtek Červen 9 19:57:33 CEST 2005


>> Případně související dotaz: Co na takový převod doporučujete nejvíce? 

Take pouzivam pro DocBook text z Wordu. Ten vsak neobsahuje temer zadne
formatovani. Muj postup je vsak specificky. Vetsinou digitalizuji nejake
stare dokumenty. Pokud je to mozne, dostanu z nich text pomoci OCR, jinak to
prepisuji rucne. Wordovsky dokument je tedy jen meziprodukt. Pomoci nekolika
maker jej nasledne doplnim o prislusne tagy a pote vlozim do XML editoru
(non WYSIWYG).
Makra mam predevsim na tabulky, kterych je vetsinou velke mnozstvi a dosud
jsem nenasel efektivnejsi zpusob, jak je z Wordu prevest do DocBooku. Makro
ocekava vstupni hodnoty oddelene tabelatory. Pokud mi OCR vygeneruje
tabulku, musim ji tedy neprve prevest na tabelatory (jednoduse pres schranku
pres Poznamkovy blok).
Dalsi makro pouzivam na odrazky. To byla take vzdy otrava. Treti makro
pouzivam na bezny text. V podstate jen uzavira odstavce do tagu <para>.
Za jednu z vyhod tohoto postupu povazuji vestavenou funkci pevnych mezer.
Mam vytvoreneny slovnik predlozek, zkratek, jednotek a dalsich prvku, pred
kterymi ci za kterymi nahrazuji standardni mezeru za pevnou (ci spise
nedelitelnou -  ). Pri spusteni kterehokoliv makra se nejprve upravi
mezery a teprve nasledne se provede patricne otagovani. Mozna jsem punta,
ale na predlozky na konci radku nebo na cisla s jednotkami na nasledujicim
radku jsem alergicky.
Pokud by mel nekdo zajem, mohu makra poskytnout. Protoze to s nimi docela
odsejpa, zatim jsem nehledal jine reseni. UpCase vypada slibne, zato vsak
neni free.



Další informace o konferenci Docbook