Konverze PostScriptu (PDF) do TXT

Pavel Janík ml. Pavel na Janik.cz
Čtvrtek Červenec 13 00:35:35 CEST 2000


   From: "Petr Simunek" <raptor na sagam.cz>
   Date: Wed, 12 Jul 2000 16:34:26 +0200

Zdravím,

   > Je lhostejne kde pdf vznikne. Text z nej NELZE jednoduse dostat.

to se ovšem velmi mýlíte, formát PDF je (pokud není linearizovaný,
optimalizovaný a komprimovaný) velmi jednoduchý, např.:

/F24 11.955 Tf 0 0 Td[(P)27(a)28(v)27(el)-327(Ja)1(n\355k)-326(ml.)]TJ

Tento text obsahuje volbu (Tf) fontu (/F24) ve velikosti téměř 12 bodů
(11.955). Význam operátoru Td je poněkud složitější. Potom (TJ) je vysázen
text, který může být (a také v tomto případě je, protože se jedná o výstup
pdfTeXu) kernován. Napsat potom jednoduché konvertítko není pro zdatného
Perlistu nebo AWKistu problém.

Navíc již existuje spousta konvertorů PDF{to,2}TXT např. u Ghostscriptu
nebo viz Freshmeat (http://www.freshmeat.net/).

   > Jedine co se mi osvedcilo je pres clipboard z Adobe Acrobatu. Cim
   > slozitejsi sazba, tim vetsi pakarna. U vicesloupcove sazby doporucuji
   > hledat schopnou pisarku :).

Pokud již máte Adobe Acrobat, můžete využít Exchange... Pokud máte pouze
Adobe Acrobat Reader, přijde mi jednodušší stránku vytisknout a přes OCR
dostat zpět :-)

BTW - formát PDF umožňuje zakázat ono "označování textu" a samozřejmě i
tisk, potom pomůže pouze velký monitor, něco co umí dělat screenshoty a
tiskárna s OCR :-)
-- 
Pavel Janík ml.
Pavel na Janik.cz
http://www.janik.cz


Další informace o konferenci Linux