PDF -> Text

Petr Olsak olsak na math.feld.cvut.cz
Čtvrtek Srpen 1 12:25:00 CEST 2002



On Wed, 24 Jul 2002, Ladislav Dobias wrote:

> Dorby den,
>
> preposilam tento mail i do konference csTeX@, treba tam
> nekdo odpovi (a vysledek pak preposlu zpet do linux@).
>
> On Sat, 20 Jul 2002, OldFrog wrote:
>
> > >A jak se vam chova pdf z acrobat distillera? Cestinu z toho ne a ne dostat
> >
> > Acrobat Distiller -  dle vyjadreni Adobe pouziva UNICODE. Osobne mne trapi
> > hlavne to, ze pokud pouziju v pdfTeXu fonty Adobe (phv apod.), po konverzi
> > pomoci pdftotext (balicek xpdf) se pokazi diakritika. Nevite nekdo, proc?
> > S fonty computer modern (crm, css apod., implicitni font TeXu) to bezi bez
> > problemu.
>
> Jestli to neni tim, ze tyto fonty (ptmr, phv,...) nejsou
> ceske a hacky a carky se tam dodavaji "skladanim" znaku a
> diakritickeho znamenka. pdftotext to ale asi neumi "v hlave"
> slozit zpet do jednoho znaku.
>
> Nebo je to jinak?
>
> Poradi nekdo, jak pouzivat 35 zakladnich PostScriptovych
> fontu, aby fungoval program pdftotext vcetne cestiny?

Dobry den,

z dotazu neni zcela zrejme, jakou implementaci zminenych fontu pouzivate.
Pisete o cmr... (dokonce i v pozdejsich reakcich) a ja nechapu, jak muze
cestina s cmr... fontem fungovat. Predpokladam  tedy, ze to je preklep, a
ze se jedna bud o csr... nebo dcr... nebo ecr...

Dale pisete o ptmr... a znovu nevim, zda pouzivate metriku ...8t nebo
...8z. Obe metriky jsou implementovany jako virtualni fonty. Rozdil je
nepatrny: u metrik ...8z (kodovane podle csfontu, metriky z cstexu) jsou
_vsechna_ akcentovana pismena realizovana jako kompozity akcentu a
zakladniho znaku. Font odkazuje na rptmr, kde se nemeni Encoding vektor
fontu Times-Roman a predpoklada se tedy AdobeStandardEncoding.
Na druhe strane ...8t (kodovane podle Corku) maji kompozity jen pro znaky,
ktere vybocuji ze sady ISO-8859-1 a odkazuji na font ...8r, ktery
meni Encoding vektor podle 8r.enc. Zaver: \v r bude kompozitni
v obou pripadech, ale \'a bude kompozitni jen pri pouziti ...8z,
zatimco pouziti ...8t vytiskne \'a jako jediny znak. Druhy zaver:
obe dve cesty jsou nam k nicemu, pokud chceme jednoduse zpetne
z vysledeneho PDF desifrovat text, protoze v cestine se kompozitum
nevyhneme. V obou pripadech neni font Times-Roman do dokumentu
downloadovan, ale predpoklada se, ze jej zvladne RIP (PSovy
nebo v Acroreaderu).

Pokud se chcete vyhnout kompozitum v PDF u zakladnich 35 PSovych fontu,
pak si musite do PDF downloadovat nahrazky techto fontu od URW, ktere jsou
k dispozici v novejsich distribucich Ghostscriptu. Ty obsahuji i ceske
znaky. Pro srovnani: fonty od Adobe obsahuji jen znaky z mnoziny
ISO-8859-1, takze pokud na ne spolehame, nelze nepouzit kompozity.

Na druhe strane zminene nove URW fonty obsahuji i znaky, ktere pokryji
celou ceskou a slovenskou abecedu. Teoreticky je tedy mozne vytvorit
metriky, ktere jsou implementovany "primo" s odkazem na URW font, u nehoz
je zmenen Encoding vektor podle potreby. O takovych metrikach bohuzel
nevim. Daly by se udelat "orezanim"  kompozitnich informaci u stavajicich
metrik ...8t a ...8z a zmenou odkazu na novy "raw" font. Udela to nekdo?
Je skutecne existence kompozitu v PDF tak fatalni problem pri lusteni
textu? Nemelo by se na to jit radeji upravou programu typu pdftotext?

Zdravim

Petr Olsak




Další informace o konferenci Linux