Konverze PostScriptu (PDF) do TXT

Radim Gelner gelnerr na suse.cz
Čtvrtek Červenec 13 10:36:01 CEST 2000


Jak zde bylo jiz nekolikrat zmineno, problem vznika na uplnem zacatku.
Konkretne ve chvili, kdy Windows generuji postscript ze souboru, ve
kterem jsou pouzite unicodove truetypy.

Doporucuji maly pokus: Ve Wordu nastavte Arial a napiste nekolik znaku
s hacky a carkami a nekolik bez. Potom vygenerujte postscript a
prozente ho Distillerem verze 3 (staci i PStill z
http://www.this.net). Kdyz potom vysledne PDFko budete chtit zobrazit
v Readeru (taky verze 3), znaky bez znamenek se zobrazi dobre, znaky
se znamenky se nezobrazi vubec a navic dostanete varovani ze font
MSTTxy nelze nalezt. Proc? Podivate-li se do drive zmineneho
postscriptu, zjistite, ze krome fontu Arial, je v nem vlozen jeste
jeden font prave s nazvem MSTTxy, jehoz prostrednictvim Windows
tisknou vsechny znaky, ktere nejsou soucasti ISO-8859-1. Windows tento
font
generuji on-fly, pokazde ma jine jmeno a temer zadny distiller ho
nedokaze
spravne vlozit do PDF. Pisu temer zadny, protoze nekolikrat jsem
zachytil zpravu, ze Acrobat Distiller 4 to pry umi.

Reseni, ktere popisu, muzete pouzit, pokud mate pristup ke starsim
verzim Windows, konkretne k ceskym 3.1 nebo 3.11. Tam jsou standardni
fonty Times New Roman, Arial a Courier New jeste rozdelene podle
kodovych stranek na Times New Roman, Times New Roman CE, Times New
Roman Cyr, atd., narozdil od 9x, kde jsou vsechny znaky v jednom
velkem unicodovem souboru. Vezmete ceske verze, pro Times New Roman
napr. cetimes.ttf, cetimeb.ttf, cetimei.ttf, cetimbi.ttf a
nainstalujte je do vasich Windows 9x. Pak upravte windows.ini tak, aby
sekce [fonts] neobsahovala zadne substituce typu Arial,0=Arial,238.
Restartujte Windows, pustte Word a vyberte Arial CE (ne Arial!) a
opakujte pokus s distillerem. Pokud jste vsechno udelali spravne, v
Readeru by se vam mel otevrit dokument s ceskymi znaky (nezapomente
distilleru nastavit "include all fonts"), text v PDFku by melo byt
mozne oznacit a zkopirovat do jine aplikace, aniz by se cestina
rozhazela a navic by ho mel precist i Linux (acroreadem, gs 6.0 jsem
nemel prilezitost vyzkouset). Z toho usuzuji, ze prevest tento soubor
zpet na text by nemel byt problem. Neuvazuji vsak formatovani, pouze
cestinu.

Tak, a nakonec known problems:

1. Cestina se nezobrazi v Readerech od verze 4 nahoru. Pokud je to pro
vas mozne, zustante u trojky.

2. Ne vsechny aplikace ve Windows vam umozni zmenit font. To plati
napriklad o vetsine ceskych ucetnich programu. Pokud aplikace
tvrdosijne vyzaduje urcity font a neni mozne ji presvedcit, aby
pouzivala ten s koncovkou CE, je zle.

--
S pozdravem,


Radim Gelner
Product Manager
---------------------------------------------------------------------
SuSE CR, s.r.o.                               e-mail: gelnerr na suse.cz
Pod Pekarnami 338/12                          tel:+420 2 6603 2619
190 00 Praha 9 - Vysocany                     fax:+420 2 6603 2620
Ceska republika                               http://www.suse.cz



Další informace o konferenci Linux