PDF -> text

Tomáš Vondra vondra na tesmail.cz
Pátek Listopad 15 17:29:02 CET 2002


MK> Zrovna nedavno jsem nekde cetl takovy docela trefny nazor. Kdosi (jemuz
MK> se omlouvam za volnou citaci bez uvedeni zdroje, bohuzel uz ale nevim,
MK> kde a kdo to byl) napsal cosi ve smyslu, ze Adobe dobre vi, proc se
MK> jejich nastroj na vytvareni PDF jmenuje Distiller - ze slivovice totiz
MK> take svestku zpatky nedostanete. Trebas to po svestce voni a mozna
MK> i chutna, svestka uz to neni.

Obavam se ze tohle neni uplne ten pripad. V obycejnem PDF se totiz
jedna ciste o kodovani, a ten text z toho skutecne lze bez problemu
dostat (pominme problemy z formatovanim, napriklad v nekolika
sloupcich).

Jenomze v pripade PDF chraneneho proti reprodukci (kopirovani textu
pres schranku, tisk dokumentu, apod.) dochazi dle meho nazoru k necemu
jinemu. Nijak do hloubky jsem to nezkoumal, nicmene predpokladam ze
tam figuruje sifrovani.

Nekolik takovych dokumentu jsem tu mel, a dole v Acrobat Readeru se
zobrazovala ikonka klice s tooltipem "Document je sifrovany" a po
kliknuti na detaily se ukazalo ze sifrovane je to algoritmem RC4 o
sile 40-bitu (ale to se zrejme muze menit). A to je dle meho nazoru
proc nefunguji utility pro prevod do textu, resp. proc vyhazuji
nesmysly. A pokud jsem se takovy dokument pokusil vytisknout do PDF
pres Distiller, vypsalo mi to jenom

---------------------
This PostScript file was created from an encrypted PDF file.
Redistilling encrypted PDF is not permitted.
%%[ Flushing: rest of job (to end-of-file) will be ignored ]%%
%%[ Warning: PostScript error. No PDF file produced. ] %%
---------------------

Reseni me napadaji nasledujici:

(1) Kdyz uz se to zobrazi, mohl by text byt nekde v pameti. Staci
    dumpnout pamet procesu a najit si ten text. Nicmene jsem to
    nezkousel a nevim jak presne to funguje.

(2) Tusim ze podobny algoritmus ochrany sveho casu uspesne napadl
    Dimitrij Skljarov. On se sice zabyval formatem ebook, nicmene ten
    je taky od Adobe a funkce je podobna - zabranit reprodukci.
    PRedpokladam ze by tam mohlo byt neco spolecneho....

(3) Vykaslat se na sifru a jit na to od lesa. Staci udelat screen
    capture a pak na to postvat OCR. Ten text bude pekne cisty, zadne
    sumy, takze by to mohlo davat vyborne vysledky. Pokud bude to OCR
    nejake lepsi, tak by to mohlo umet resit i situace s vice sloupci,
    coz jinak nejde. Proste OCR nezajima jak je to PDF uvnitr
    postavene, a muze z toho tezit.

Tomas




Další informace o konferenci Linux