Konverze PostScriptu (PDF) do TXT
Pavel Janík ml.
Pavel na Janik.cz
Čtvrtek Červenec 13 00:35:35 CEST 2000
From: "Petr Simunek" <raptor na sagam.cz>
Date: Wed, 12 Jul 2000 16:34:26 +0200
Zdravím,
> Je lhostejne kde pdf vznikne. Text z nej NELZE jednoduse dostat.
to se ovšem velmi mýlíte, formát PDF je (pokud není linearizovaný,
optimalizovaný a komprimovaný) velmi jednoduchý, např.:
/F24 11.955 Tf 0 0 Td[(P)27(a)28(v)27(el)-327(Ja)1(n\355k)-326(ml.)]TJ
Tento text obsahuje volbu (Tf) fontu (/F24) ve velikosti téměř 12 bodů
(11.955). Význam operátoru Td je poněkud složitější. Potom (TJ) je vysázen
text, který může být (a také v tomto případě je, protože se jedná o výstup
pdfTeXu) kernován. Napsat potom jednoduché konvertítko není pro zdatného
Perlistu nebo AWKistu problém.
Navíc již existuje spousta konvertorů PDF{to,2}TXT např. u Ghostscriptu
nebo viz Freshmeat (http://www.freshmeat.net/).
> Jedine co se mi osvedcilo je pres clipboard z Adobe Acrobatu. Cim
> slozitejsi sazba, tim vetsi pakarna. U vicesloupcove sazby doporucuji
> hledat schopnou pisarku :).
Pokud již máte Adobe Acrobat, můžete využít Exchange... Pokud máte pouze
Adobe Acrobat Reader, přijde mi jednodušší stránku vytisknout a přes OCR
dostat zpět :-)
BTW - formát PDF umožňuje zakázat ono "označování textu" a samozřejmě i
tisk, potom pomůže pouze velký monitor, něco co umí dělat screenshoty a
tiskárna s OCR :-)
--
Pavel Janík ml.
Pavel na Janik.cz
http://www.janik.cz
Další informace o konferenci Linux