PDF -> Text

Zdenek Wagner wagner na cesnet.cz
Čtvrtek Srpen 1 12:48:01 CEST 2002


On Thu, 1 Aug 2002, Petr Olsak wrote:

>
> Dale pisete o ptmr... a znovu nevim, zda pouzivate metriku ...8t nebo
> ...8z. Obe metriky jsou implementovany jako virtualni fonty. Rozdil je
> nepatrny: u metrik ...8z (kodovane podle csfontu, metriky z cstexu) jsou
> _vsechna_ akcentovana pismena realizovana jako kompozity akcentu a
> zakladniho znaku. Font odkazuje na rptmr, kde se nemeni Encoding vektor
> fontu Times-Roman a predpoklada se tedy AdobeStandardEncoding.
> Na druhe strane ...8t (kodovane podle Corku) maji kompozity jen pro znaky,

Pokud me pamet neklame, 8t je pro cstt*, 8z pro vsechny ostatni cs*. Jde o
to, ze cmtt* se na nekterych pozicich lisi od jinych cm*, napr. misto < a
> jsou obracene spanelske ? a !.

> nevyhneme. V obou pripadech neni font Times-Roman do dokumentu
> downloadovan, ale predpoklada se, ze jej zvladne RIP (PSovy
> nebo v Acroreaderu).
>
Zvladne, ale Acrobat 4 tam da jiny font nez Acrobat 3 a Acrobat 5. Zkuste
si Times z cspsfonts a \sc -- budete se divit. Kdyz Acrobatem 4 udelate
PDF kompatibilni s Acrobatem 3, ujede diakritika a zmizi nektere
mezislovni mezery. Acrobat 5 uz tuto chybu nema.

> Na druhe strane zminene nove URW fonty obsahuji i znaky, ktere pokryji
> celou ceskou a slovenskou abecedu. Teoreticky je tedy mozne vytvorit
> metriky, ktere jsou implementovany "primo" s odkazem na URW font, u nehoz
> je zmenen Encoding vektor podle potreby. O takovych metrikach bohuzel
> nevim. Daly by se udelat "orezanim"  kompozitnich informaci u stavajicich
> metrik ...8t a ...8z a zmenou odkazu na novy "raw" font. Udela to nekdo?

Nema nekdo prislusne soubory pro fontinst? Tim by to snad melo jit snadno.

> Je skutecne existence kompozitu v PDF tak fatalni problem pri lusteni
> textu? Nemelo by se na to jit radeji upravou programu typu pdftotext?
>
Pokud se pouzije spravne lokalizovany font, pak funguje v Acrobatu 5 Text
Spy. Zkousel jsem cestu LaTeX->dvi->ps->pdf, pouzil jsem jak Distiller z
verze 4, tak z verze 5, v PDF byly CS-fonty, DC-fonty a Lido a ve vsech mi
Text Spy fungoval. Dokonce spravne rozezna i ligatury a \v{d}, \v{t} a
\v{l}.

Samozrejme je mozne upravit pdftotext, aby mel stejnou inteligenci, jakou
ma dvispell z emTeXu. Kdyby to rozumelo stejnym konfiguracnim souborum,
asi by to bylo uzitecne.

> Zdravim
>
> Petr Olsak
>
>
>
>
>
>

Zdenek Wagner
e-mail: wagner na mbox.cesnet.cz  or  wagner na icpf.cas.cz

see also http://www.icpf.cas.cz/wagner/
         http://icebearsoft.euweb.cz



Další informace o konferenci Linux