prohlizeni PDF souboru na textove konsoli

David Kuzela kuzela na mbox.vol.cz
Středa Únor 9 22:52:07 CET 2000


Jaroslav Honsa pise:
> >   A good free utility pstotext uses Ghostscript to extract plain text from 
> >   PostScript files. It is much better than the ps2ascii utility distributed 
> >   with Ghostscript. You can read the pstotext documentation at
> >   
> >   http://www.research.digital.com/SRC/virtualpaper/manpages/pstotext.1.html
> > 
> > Zkusil jsem prevest kratky soubor a prevadi bez problemu i cestinu (a to
> > vcetne úů - dloha u pro ctenare linux-ascii).
> > 
> Prosim Vas jak jste to udelal? Mne to pise misto ceskych znaku vselijaky
> vlnovky (zkusil jsem prevest noviny-09-1999.pdf) a i v dokumentaci pisi:
> "pstotext always translates to the ISO 8859-1 (Latin-1) character code."
> Co jsem prehledl?

Je to trochu zmatenejsi - pstotext jsem testoval nasledujicim zpusobem:
   
   twoflower:~/gs$ cat > pom.tex
   ěščřžýáíéúůó
   \end
   twoflower:~/gs$ cstex pom.tex && dvips pom.dvi -o pom.ps
   This is TeX, Version 3.14159 (Web2C 7.2)
   ...
   TeX output 2000.02.09:1515' -> pom.ps
   twoflower:~/gs$ pstotext pom.ps
   ěščřžýáíéúůó
   1

Coz funguje -> nenapadlo me, ze pri prevodu z PDF by tomu mohlo byt jinak.
Problem je v tom, ze mnou uvedeny postup prevodu PDF na PS pomoci:

/usr/bin/gs -dNODISPLAY -dQUIET -sPDFname=pom.pdf -sDSCname=out.ps pdf2dsc.ps -c quit

nevytvori "plnohodnotny" PostScript ale pouze jeho kostru (pom.pdf na ktery
je v ni odkaz je vytvoren z uvedeneho prikladu pom.tex pomoci pdftexu):

   %!PS-Adobe-3.0
   %%CreationDate: (D:20000209151600)
   %%Pages: 1
   %%EndComments
   %%BeginProlog
   /Page null def
   /Page# 0 def
   /PDFSave null def
   /DSCPageCount 0 def
   /DoPDFPage {dup /Page# exch store pdfgetpage pdfshowpage } def
   GS_PDF_ProcSet begin
   pdfdict begin
   %%EndProlog
   %%BeginSetup
   (pom.pdf) (r) file pdfopen begin
   %%EndSetup
   %%Page: 1 1
   1 DoPDFPage
   %%Trailer
   currentdict pdfclose
   end
   end
   end
   %%EOF

Pokud nat touto kostrou zkusim pstotext, dostavam

   #s @##z @ýáíéú#ó
   1

Pokud nad ni zkusim ps2ascii:

   e^s^c^r^z^y'a'i'e'u'u*o'
   1

Coz je v podstate pouzitelne. Co me mate, je ze pokud pouziji ps2ascii
na pom.ps (postscript vyvoreny pomoci dvips), vychrli na me ps2ascii 
chybovou hlasku. 

Resenim neni ani otevreni PDF v acrobat readeru, tisk do souboru a jeho 
prevod, ani pouziti gs6.0. Bohuzel do PS ani PDF prilis nevidim, takze 
vic vam asi nepomohu.

-- 
                                   David Kužela
==[Dawyd]======[icq]=[24470559]===================
 email:       kuzela na mbox.vol.cz   Student of VSE
 web:   http://penguin.cz/~dawyd   Czech republic
==================================================


Další informace o konferenci Linux