pdftotext

oldfrog na volny.cz oldfrog na volny.cz
Čtvrtek Leden 16 01:49:00 CET 2003


>
>
> : Tak bohuzel ani "Latin2" nebere :(. Zkousel jsem to jak na zminovanem 
> : FreBSD tak i na MDK9.0.
>
> : Error: Couldn't find unicodeMap file for the 'Latin2' encoding
> : Error: Couldn't get text encoding
>
> : Nesouvisi to nejak se souborem /usr/X11R6/etc/xpdfrc (resp. /etc/xpdfrc 
> : v MDK). V tomto souboru jsou nejake definice pro ISO-8859-1 (tedy 
> : Latin1) a pro cinstinu a japonstinu. Zkousel jsem koverzi s parametrem 
> : UTF-8 a to proslo a bylo to cesky. Bohuzel bych radsi kodovani ISO.
>
>Suvisi a v debiane je v balicku subor
>/etc/xpdf/xpdfrc-latin2
>
>a v /usr/share/xpdf/latin2/Latin2.unicodeMap je prislusna konverzna
>tabulka.
>  
>

Ale ani pak nemate vyhrano - napr. pri pouziti fontu phv

\fontfamily{phv}
\selectfont

se konverze do textu z pdf generovaneho pdfcslatexem  nezdari.
Viz archiv konference cstex na cs.felk.cvut.cz , thread "PDF -> Text"
(prikladam nize).

Zdravi OldFrog.

--------konference cstex na cs.felk.cvut.cz , thread "PDF -> 
Text"------------------

===============================================================================
Date: Wed, 24 Jul 2002 10:00:01 +0200
From: Ladislav Dobias <dobias na labe.felk.cvut.cz>
To: linux na linux.cz
CC: cstex na cs.felk.cvut.cz
Subject: Re: PDF -> Text
In-Reply-To: <3D38AAD7.5030602 na volny.cz>
MIME-Version: 1.0
Content-Type: TEXT/PLAIN; charset=US-ASCII

Dorby den,

preposilam tento mail i do konference csTeX@, treba tam
nekdo odpovi (a vysledek pak preposlu zpet do linux@).

On Sat, 20 Jul 2002, OldFrog wrote:

> >A jak se vam chova pdf z acrobat distillera? Cestinu z toho ne a ne dostat
>
> Acrobat Distiller -  dle vyjadreni Adobe pouziva UNICODE. Osobne mne trapi
> hlavne to, ze pokud pouziju v pdfTeXu fonty Adobe (phv apod.), po konverzi
> pomoci pdftotext (balicek xpdf) se pokazi diakritika. Nevite nekdo, proc?
> S fonty computer modern (crm, css apod., implicitni font TeXu) to bezi bez
> problemu.

Jestli to neni tim, ze tyto fonty (ptmr, phv,...) nejsou
ceske a hacky a carky se tam dodavaji "skladanim" znaku a
diakritickeho znamenka. pdftotext to ale asi neumi "v hlave"
slozit zpet do jednoho znaku.

Nebo je to jinak?

Poradi nekdo, jak pouzivat 35 zakladnich PostScriptovych
fontu, aby fungoval program pdftotext vcetne cestiny?

Dekuji predem.

Zdravi
Lada Dobias

--

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
                                                      ,v
  ##       ##   #####   #####            Ladislav DOBIAS
  ##      ####  ##  ## ##O-O##         xdobiasl na fel.cvut.cz
  ##     ##  ## ##  ## ## > ##   <http://cs.felk.cvut.cz/~xdobiasl/>
  ##     ###### ##  ## ## v ##      I'm a Ph.D. student on Czech
  ###### ##  ## #####   #####           Technical University
                                   Interests: AI, music, TeX, Unix
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%



===============================================================================
===============================================================================
Date: Wed, 24 Jul 2002 10:37:44 +0200
From: Milan Vancura <milan na ucw.cz>
To: csTeX na cs.felk.cvut.cz
Subject: Re: PDF -> Text
References: <3D38AAD7.5030602 na volny.cz>
            <200207240800.g6O80Iq2071428 na relay.felk.cvut.cz>
MIME-Version: 1.0
Content-Type: text/plain; charset=us-ascii
In-Reply-To: <200207240800.g6O80Iq2071428 na relay.felk.cvut.cz>

> Poradi nekdo, jak pouzivat 35 zakladnich PostScriptovych
> fontu, aby fungoval program pdftotext vcetne cestiny?

Bohuzel se jedna o mnohem slozitejsi problem, a to nejen s pdftexem. Adobe ma
velmi zvlastni (a dost arogantni) pristup ke vsem kodovanim krome sveho
vlastniho (nadstavba nad iso-8859-1), coz se projevuje napr. na nasledujici
vete ve specifikaci PDF:

Kazde kodovani fontu, ktere obsahuje alespon jeden znak mimo
AdobeStandardEncoding, je oznacen za font se symboly.

Tj. i vsechny ceske fonty jsou pak oznaceny jako "symbolove" misto toho, ze
obsahuji znaky. Nevztahuji se pak na ne ruzne algoritmy pro cache apod. A navic
pokud "creator" pdf souboru neuvede ke kodovani fontu i tabulku ToUnicode nebo
neuvede Encoding s nazvy znaku podle navrhu Adobe (s cestinou mame kliku,
vsechny jeji znaky tam myslim jsou, ale jine jazyky jsou uz na tom hur,
projevuje se zde uplne stejna ignorance od Adobe), tak z toho zadny program
pdftotext nema sanci ziskat spravny text.

Z vyse uvedeneho plyne, ze nejjistejsi je donutit kazdou aplikaci vytvarejici
PDF, aby ke kazde definici fontu pridala i polozku ToUnicode. A pokud rozklada
znak do vice znaku (akcent+zakladni znak), tak navic musi spolehat na to, ze
pdftotext umi skladat znaky podle UNICODE, tj. ze umi poznat kombinaci
akcent+znak a nahradit ji ve vystupnim kodovani akcentovanym znakem.

Tolik me zkusenosti s programovanim pdftotext.

Preji hezky den,

Milan Vancura

P.S.: Dalsi problem je, ze polozky jako bookmarky a anotace jsou podle
specifikace v PDFDocEncoding, coz je opet iso-8859-1 (resp. jeji nadstavba) a
tudiz pokus cspdftexu o ceske texty v bookmarkach jsou opet odsouzeny k
neuspechu.


===============================================================================
===============================================================================
Date: Wed, 24 Jul 2002 10:59:54 +0200
From: Zdenek Wagner <wagner na cesnet.cz>
To: <csTeX na cs.felk.cvut.cz>
Subject: Re: PDF -> Text
In-Reply-To: <200207240837.g6O8bqq2075851 na relay.felk.cvut.cz>
MIME-Version: 1.0
Content-Type: TEXT/PLAIN; charset=US-ASCII

On Wed, 24 Jul 2002, Milan Vancura wrote:

> Tj. i vsechny ceske fonty jsou pak oznaceny jako "symbolove" misto toho, ze
> obsahuji znaky. Nevztahuji se pak na ne ruzne algoritmy pro cache apod. A navic
> pokud "creator" pdf souboru neuvede ke kodovani fontu i tabulku ToUnicode nebo
> neuvede Encoding s nazvy znaku podle navrhu Adobe (s cestinou mame kliku,
> vsechny jeji znaky tam myslim jsou, ale jine jazyky jsou uz na tom hur,
> projevuje se zde uplne stejna ignorance od Adobe), tak z toho zadny program
> pdftotext nema sanci ziskat spravny text.
>
Ja jsem zkousel export ceskeho textu pomoci Acrobatu 5 ve Windows, a
samozrejme jsem to testoval na dokumentech ziskanych TeXem. Pri pouziti
fontu Lido, ktery jsem mel ve windows instalovan, jsem nemel problemy.
Jiste potize (export jako RTF) jsem mel s CS-fonty. Maly pozitivni kerning
mezi "p" a "o" se casto nespravne interpretoval jako mezislovni mezera,
takze misto slova "podle" jsem mel "p odle" a na velmi stazenych radkach
se zase mezislovni mezery uplne ztratily. A jeste horsi je, ze cast textu
se mi z neznameho duvodu prevedla do hebrejstiny. Ale v te cast, ktera
zustala ceska, byla diakritika spravne.

> Z vyse uvedeneho plyne, ze nejjistejsi je donutit kazdou aplikaci vytvarejici
> PDF, aby ke kazde definici fontu pridala i polozku ToUnicode. A pokud rozklada
> znak do vice znaku (akcent+zakladni znak), tak navic musi spolehat na to, ze
> pdftotext umi skladat znaky podle UNICODE, tj. ze umi poznat kombinaci
> akcent+znak a nahradit ji ve vystupnim kodovani akcentovanym znakem.
>
Takovou vec (tedy ne v Unicode a jen pro DVI) umi dvispell v emTeXu.
Zkousel jsem to s CM-fonty, ale jestli to umi s jakymkoliv fontem, to
nevim.

> Tolik me zkusenosti s programovanim pdftotext.
>
> Preji hezky den,
>
> Milan Vancura
>
> P.S.: Dalsi problem je, ze polozky jako bookmarky a anotace jsou podle
> specifikace v PDFDocEncoding, coz je opet iso-8859-1 (resp. jeji nadstavba) a
> tudiz pokus cspdftexu o ceske texty v bookmarkach jsou opet odsouzeny k
> neuspechu.
>
Bookmarky mohou byt v Unicode. Je to napsano jiz v dokumentaci PDF 1.2,
ale empiricky jsem vyzkousel, ze Acrobat 3 si s tim neporadi. Acrobat 4
jiz ano, ale kdyz si pak nekdo takovy text precte Acrobatem 3 (a bohuzel
Adobe nedela ani Reader pro vsechny systemy, takze posledni "portable"
verze je 1.2, tj. Acrobat 3), je vysledek jeste horsi nez bookmarky bez
diakritiky.

>
>
>

Zdenek Wagner
e-mail: wagner na mbox.cesnet.cz  or  wagner na icpf.cas.cz

see also http://www.icpf.cas.cz/wagner/
         http://icebearsoft.euweb.cz



===============================================================================
===============================================================================
Date: Wed, 24 Jul 2002 18:22:48 +0200
From: oldfrog <oldfrog.mail.tex1 na volny.cz>
MIME-Version: 1.0
To: csTeX na cs.felk.cvut.cz
Subject: Re: PDF -> Text
References: <200207240900.g6O904q2079553 na relay.felk.cvut.cz>
Content-Type: text/plain; charset=us-ascii; format=flowed
Content-Transfer-Encoding: 7bit

>
>
>Takovou vec (tedy ne v Unicode a jen pro DVI) umi dvispell v emTeXu.
>Zkousel jsem to s CM-fonty, ale jestli to umi s jakymkoliv fontem, to
>nevim.
>
Dik za typ na dvispell, urcite vyzkousim a dam sem hlasku, jak to dopadlo.

OldFrog.




===============================================================================
===============================================================================
Date: Wed, 24 Jul 2002 18:23:02 +0200
From: oldfrog <oldfrog.mail.tex1 na volny.cz>
MIME-Version: 1.0
To: csTeX na cs.felk.cvut.cz
Subject: Re: PDF -> Text
References: <3D38AAD7.5030602 na volny.cz>
            <200207240800.g6O80Iq2071428 na relay.felk.cvut.cz>
            <200207240837.g6O8bsq2075933 na relay.felk.cvut.cz>
Content-Type: text/plain; charset=us-ascii; format=flowed
Content-Transfer-Encoding: 7bit

>
>
>Z vyse uvedeneho plyne, ze nejjistejsi je donutit kazdou aplikaci vytvarejici
>PDF, aby ke kazde definici fontu pridala i polozku ToUnicode. A pokud rozklada
>znak do vice znaku (akcent+zakladni znak), tak navic musi spolehat na to, ze
>pdftotext umi skladat znaky podle UNICODE, tj. ze umi poznat kombinaci
>akcent+znak a nahradit ji ve vystupnim kodovani akcentovanym znakem.
>
Lze to nejak realizovat v pdfTeXu? Bohuzel bych docela potreboval 
prevadet pdf vytvorena
v pdfTeXu do cisteho textu - kvuli indexaci ve vyhledavacim stroji 
htdig. A jak jsem rekl,
funguje to jen s Computer Modern fonty, coz mne dost omezuje...

Prilis se ve specifikaci fontu nevyznam, nicmene nemuze to byt treba 
rozdilnym kodovanim
fontu Adobe a ComputerModern? Nebo skutecne Adobe fonty neobsahuji ceske 
znaky?
Pouzivam distribuci teTeX na SuSE linuxu 8.0cz.

V podstate by mi stacila nejaka funkcni alternativa k Adobe fontum, jde 
mi hlavne o Helveticu
(phv), Times (ptm) a Bookman (pbk).

>P.S.: Dalsi problem je, ze polozky jako bookmarky a anotace jsou podle
>specifikace v PDFDocEncoding, coz je opet iso-8859-1 (resp. jeji nadstavba) a
>tudiz pokus cspdftexu o ceske texty v bookmarkach jsou opet odsouzeny k
>neuspechu.
>
Taky jsem si vsiml. V linuxu vidim bookmarky i s cestinou, ale ve 
Windows je to pokazene...

Dekuji moc za predesle a
eventuelne i nasledujici reakce,

OldFrog
(Ondra Nemecek).





===============================================================================
===============================================================================
Date: Wed, 24 Jul 2002 18:45:55 +0200
From: Petr Sojka <sojka na informatics.muni.cz>
To: csTeX na cs.felk.cvut.cz
Subject: Re: PDF -> Text
References: <3D38AAD7.5030602 na volny.cz>
            <200207240800.g6O80Iq2071428 na relay.felk.cvut.cz>
            <200207240837.g6O8bsq2075933 na relay.felk.cvut.cz>
            <200207241625.g6OGPo4K018744 na relay.felk.cvut.cz>
MIME-Version: 1.0
Content-Type: text/plain; charset=us-ascii
In-Reply-To: <200207241625.g6OGPo4K018744 na relay.felk.cvut.cz>; from oldfrog on
    Wed, Jul 24, 2002 at 06:23:02PM +0200

On Wed, Jul 24, 2002 at 06:23:02PM +0200, oldfrog wrote:

> >Z vyse uvedeneho plyne, ze nejjistejsi je donutit kazdou aplikaci vytvarejici
> >PDF, aby ke kazde definici fontu pridala i polozku ToUnicode. A pokud rozklada
> >znak do vice znaku (akcent+zakladni znak), tak navic musi spolehat na to, ze
> >pdftotext umi skladat znaky podle UNICODE, tj. ze umi poznat kombinaci
> >akcent+znak a nahradit ji ve vystupnim kodovani akcentovanym znakem.
> >
> Lze to nejak realizovat v pdfTeXu? 

Popis problemu kolegy Vancury byl velmi presny.
Pridavat polozku ToUnicode lze v pdftexu jiz cca dva roky,
Thanh tam tehdy na mou zadost pridal primitiv, ktery umoznuje
pridat prislusny CMAP (character mapping) k pouzitemu fontu.
Tim se aplikace ctouci PDF (Reader, pdftotext/htdig) teprve dozvi
jednoznacne ktere znaky (Unicode) odpovidaji sekvencim sazenych
glyphu (na samotne nazvy glyphu se vetsinou nelze moc spolehnout).
Nechce se nekomu ty cmap soubory pripadne dalsi podporu maker
pro casto pouzivane sady fontu vytvorit a venovat do sirene 
distribuce (texlive)?

> Bohuzel bych docela potreboval
> prevadet pdf vytvorena
> v pdfTeXu do cisteho textu - kvuli indexaci ve vyhledavacim stroji
> htdig. A jak jsem rekl,
> funguje to jen s Computer Modern fonty, coz mne dost omezuje...
A funguji i ligatury?

Zdravim
--ps


===============================================================================
===============================================================================
Date: Wed, 24 Jul 2002 19:54:42 +0200
From: oldfrog <oldfrog.mail.tex1 na volny.cz>
MIME-Version: 1.0
To: csTeX na cs.felk.cvut.cz
Subject: Re: PDF -> Text
References: <3D38AAD7.5030602 na volny.cz>
            <200207240800.g6O80Iq2071428 na relay.felk.cvut.cz>
            <200207240837.g6O8bsq2075933 na relay.felk.cvut.cz>
            <200207241625.g6OGPo4K018744 na relay.felk.cvut.cz>
            <200207241646.g6OGk44K022011 na relay.felk.cvut.cz>
Content-Type: text/plain; charset=us-ascii; format=flowed
Content-Transfer-Encoding: 7bit

>
>
>>>Z vyse uvedeneho plyne, ze nejjistejsi je donutit kazdou aplikaci vytvarejici
>>>PDF, aby ke kazde definici fontu pridala i polozku ToUnicode. A pokud rozklada
>>>znak do vice znaku (akcent+zakladni znak), tak navic musi spolehat na to, ze
>>>pdftotext umi skladat znaky podle UNICODE, tj. ze umi poznat kombinaci
>>>akcent+znak a nahradit ji ve vystupnim kodovani akcentovanym znakem.
>>>
>>Lze to nejak realizovat v pdfTeXu?
>>    
>>
>Popis problemu kolegy Vancury byl velmi presny.
>Pridavat polozku ToUnicode lze v pdftexu jiz cca dva roky,
>Thanh tam tehdy na mou zadost pridal primitiv, ktery umoznuje
>pridat prislusny CMAP (character mapping) k pouzitemu fontu.
>Tim se aplikace ctouci PDF (Reader, pdftotext/htdig) teprve dozvi
>jednoznacne ktere znaky (Unicode) odpovidaji sekvencim sazenych
>glyphu (na samotne nazvy glyphu se vetsinou nelze moc spolehnout).
>Nechce se nekomu ty cmap soubory pripadne dalsi podporu maker
>pro casto pouzivane sady fontu vytvorit a venovat do sirene
>distribuce (texlive)?
>
>>Bohuzel bych docela potreboval
>>prevadet pdf vytvorena
>>v pdfTeXu do cisteho textu - kvuli indexaci ve vyhledavacim stroji
>>htdig. A jak jsem rekl,
>>funguje to jen s Computer Modern fonty, coz mne dost omezuje...
>>    
>>
>A funguji i ligatury?
>
Ptate se, jestli se zobrazuji jako ligatura nebo jestli je umi prevest 
pdftotext?

OldFrog.















===============================================================================
===============================================================================
Date: Wed, 24 Jul 2002 20:13:57 +0200
From: oldfrog <oldfrog.mail.tex1 na volny.cz>
MIME-Version: 1.0
To: csTeX na cs.felk.cvut.cz
Subject: Re: PDF -> Text
References: <3D38AAD7.5030602 na volny.cz>
            <200207240800.g6O80Iq2071428 na relay.felk.cvut.cz>
            <200207240837.g6O8bsq2075933 na relay.felk.cvut.cz>
            <200207241625.g6OGPo4K018744 na relay.felk.cvut.cz>
            <200207241646.g6OGk44K022011 na relay.felk.cvut.cz>
Content-Type: text/plain; charset=us-ascii; format=flowed
Content-Transfer-Encoding: 7bit

>
>
>>Lze to nejak realizovat v pdfTeXu?
>>    
>>
>Popis problemu kolegy Vancury byl velmi presny.
>Pridavat polozku ToUnicode lze v pdftexu jiz cca dva roky,
>Thanh tam tehdy na mou zadost pridal primitiv, ktery umoznuje
>pridat prislusny CMAP (character mapping) k pouzitemu fontu.
>Tim se aplikace ctouci PDF (Reader, pdftotext/htdig) teprve dozvi
>jednoznacne ktere znaky (Unicode) odpovidaji sekvencim sazenych
>glyphu (na samotne nazvy glyphu se vetsinou nelze moc spolehnout).
>Nechce se nekomu ty cmap soubory pripadne dalsi podporu maker
>pro casto pouzivane sady fontu vytvorit a venovat do sirene
>distribuce (texlive)?
>
>>Bohuzel bych docela potreboval
>>prevadet pdf vytvorena
>>v pdfTeXu do cisteho textu - kvuli indexaci ve vyhledavacim stroji
>>htdig. A jak jsem rekl,
>>funguje to jen s Computer Modern fonty, coz mne dost omezuje...
>>    
>>
>A funguji i ligatury?
>
font - ligatura - pdftotext:

cms - ano - ano
cmss - ne (asi ani nema ?) - ano
cmr - ano -ano
cmtt - ne - ano

ptm - ano - ne
phv - ne - ne
ppl - ne - ne
pcr - ne - ne

Pokud je u pdftotext uvedeno "ne", znamena to, ze se provedla
konverze, jejimz vysledkem bylo neco jako s\v{}as\v{}ek; tj.
nejdrive pismenko a pak hacek (slovo sasek).

Co z toho lze vysoudit?

Dik,
OldFrog.







===============================================================================
===============================================================================
Date: Wed, 24 Jul 2002 21:08:06 +0200
From: oldfrog <oldfrog.mail.tex1 na volny.cz>
MIME-Version: 1.0
To: csTeX na cs.felk.cvut.cz
Subject: Re: PDF -> Text
References: <3D38AAD7.5030602 na volny.cz>
            <200207240800.g6O80Iq2071428 na relay.felk.cvut.cz>
            <200207240837.g6O8bsq2075933 na relay.felk.cvut.cz>
            <200207241625.g6OGPo4K018744 na relay.felk.cvut.cz>
            <200207241646.g6OGk44K022011 na relay.felk.cvut.cz>
            <200207241815.g6OIFP4K030800 na relay.felk.cvut.cz>
Content-Type: text/plain; charset=us-ascii; format=flowed
Content-Transfer-Encoding: 7bit

 > na samotne nazvy glyphu se vetsinou nelze moc spolehnout

To mne od Adobe rikali take, vysvetlili tim spatnou kompatibilitu pdf.
Rekli , ze zavisi prave na tom, jak jsou ve fontu znaky pojmenovane.
Tak jsem se ptal, ktere fonty mohu spolehlive pouzivat, a oni
nebyli schopni odpovedet! Bida...

 > Nechce se nekomu ty cmap soubory pripadne dalsi podporu maker
 > pro casto pouzivane sady fontu vytvorit a venovat do sirene
 > distribuce (texlive)?

Da se nekde docist, jak na to?

Dik,
OldFrog.




===============================================================================
===============================================================================
Date: Thu, 25 Jul 2002 09:53:59 +0200
From: Zdenek Wagner <wagner na cesnet.cz>
To: <csTeX na cs.felk.cvut.cz>
Subject: Re: PDF -> Text
In-Reply-To: <200207241908.g6OJ8R4K034183 na relay.felk.cvut.cz>
MIME-Version: 1.0
Content-Type: TEXT/PLAIN; charset=US-ASCII

On Wed, 24 Jul 2002, oldfrog wrote:

>  > na samotne nazvy glyphu se vetsinou nelze moc spolehnout
>
> To mne od Adobe rikali take, vysvetlili tim spatnou kompatibilitu pdf.
> Rekli , ze zavisi prave na tom, jak jsou ve fontu znaky pojmenovane.
> Tak jsem se ptal, ktere fonty mohu spolehlive pouzivat, a oni
> nebyli schopni odpovedet! Bida...
>
Nedivte se. Fonty dela kdekdo a ty ceske jsou velmi casto zmrsene. V
distribuci ghostscriptu najdete makro, ktere zobrazi vsechny znaky, ktere
jsou v Encoding, spolecne s kodem a snad i jmenem. Ja jsem si to upravil
tak, ze se vytisknou i znaky, ktere nemaji prirazeny kod v intervalu
o..255 (a stejne jako v AFM se u nich tiskne kod -1). Pak staci jenom
zkontrolovat, zda nazvy odpovidaji. Mohu to ve svem pocitaci najit a
poslat.

>  > Nechce se nekomu ty cmap soubory pripadne dalsi podporu maker
>  > pro casto pouzivane sady fontu vytvorit a venovat do sirene
>  > distribuce (texlive)?
>
> Da se nekde docist, jak na to?
>
A neni pritomnost cmap souboru pricinou toho, ze mi Acrobat 3 hlasi "Bad
CMAP"? Ja bych rad pouzival novejsi verzi Acrobata, jenze Adobe ji nechce
udelat...

> Dik,
> OldFrog.
>
>
>
>
>
>

Zdenek Wagner
e-mail: wagner na mbox.cesnet.cz  or  wagner na icpf.cas.cz

see also http://www.icpf.cas.cz/wagner/
         http://icebearsoft.euweb.cz



===============================================================================
===============================================================================
Date: Thu, 25 Jul 2002 10:47:04 +0200
From: Milan Vancura <milan na ucw.cz>
To: csTeX na cs.felk.cvut.cz
Subject: Re: PDF -> Text
References: <200207240837.g6O8bqq2075851 na relay.felk.cvut.cz>
            <200207240900.g6O904q2079553 na relay.felk.cvut.cz>
MIME-Version: 1.0
Content-Type: text/plain; charset=us-ascii
In-Reply-To: <200207240900.g6O904q2079553 na relay.felk.cvut.cz>

> Bookmarky mohou byt v Unicode. Je to napsano jiz v dokumentaci PDF 1.2,
> ale empiricky jsem vyzkousel, ze Acrobat 3 si s tim neporadi. Acrobat 4
> jiz ano, ale kdyz si pak nekdo takovy text precte Acrobatem 3 (a bohuzel
> Adobe nedela ani Reader pro vsechny systemy, takze posledni "portable"
> verze je 1.2, tj. Acrobat 3), je vysledek jeste horsi nez bookmarky bez
> diakritiky.

Presne tak, nestihl jsem posledne napsat vse, protoze mam ted docasne omezeny
pristup k Inetu. Tech detailu je strasna spousta, mohl bych o tom sepsat
nejakou docku, pokud by byl zajem, ale zabralo by to dost casu. Takze spise
odpovedi na konkretni dotazy. Namatkou, co jsem minule nepopsal: jak je to s
TrueType fonty, proc Lido funguje a CS fonty ne, jake dalsi problemy s jinak
ziskanymi ceskymi dokumenty jsou (texty typu "ABCDEFGHIJ" znamenajici "Dobry
den", avsak strojem nerozlustitelne apod.) a proc Acrobat obcas vymysli uplne
zvracene hranice mezi slovy...

Milan Vancura


===============================================================================
===============================================================================
Date: Thu, 25 Jul 2002 11:07:24 +0200
From: Zdenek Wagner <wagner na cesnet.cz>
To: <csTeX na cs.felk.cvut.cz>
Subject: Re: PDF -> Text
In-Reply-To: <200207250847.g6P8lD4K071499 na relay.felk.cvut.cz>
MIME-Version: 1.0
Content-Type: TEXT/PLAIN; charset=US-ASCII

On Thu, 25 Jul 2002, Milan Vancura wrote:

> TrueType fonty, proc Lido funguje a CS fonty ne, jake dalsi problemy s jinak

To je divne, ze by CS fonty nefungovaly. Kdyz v Acrobatu 5 CZ pribalili
nastroj na indexovani ceskych a slovenskych dokumentu a prohledavani,
zkusil jsem to samozrejme na Zpravodajich. Ty jsou sazeny v CS fontech,
nekolik prispevku je v DC fontech. Fungovalo mi to dobre na cestinu i
slovenstinu a spravne se rozeznaji i ligatury fl a fi, trojite ligatury
ffl a ffi se v ceskych a slovenskych textech nevyskytuji, takze to jsem
nezkousel.

>
> Milan Vancura
>
>
>
>

Zdenek Wagner
e-mail: wagner na mbox.cesnet.cz  or  wagner na icpf.cas.cz

see also http://www.icpf.cas.cz/wagner/
         http://icebearsoft.euweb.cz



===============================================================================









Další informace o konferenci Linux