Script na parsovani souboru kvuli internetovym adresam? (dodatek)

Ing. Vlastimil Pospíchal vpospichal na tiscali.cz
Středa Duben 16 07:36:30 CEST 2003


On Wed, Apr 16, 2003 at 02:58:04AM +0200, Matous Jan Fialka wrote:
> > > man urlview
> > > Kit
> >
> > Hezke, moc hezke :-)
> > Dekuji za upozorneni, neznal jsem to. Ale jak to mam pouzit v mem
> > ~/.procmailrc ? Nejak se mi to nedari rozchodit ani tak, aby to fungovalo
> > jako filtr ze souboru do souboru na prikazove radce... :-(
> > Jo, abych nezapomel, vysledny soubor by mel byt normalni *textovy* soubor!
> > Dekuji...
> 
> Pardon, ze takhle prodluzuju tenhle thread, ale...
> Ted najednou koukam... a vidim: Ono to navic najde i emailove adresy
> (retezce s "@", napriklad to naleza veci jako:
> "mailto:nekdo na nekde.neco.xx"), coz tedy rozhodne nepotrebuju (a ani netusim,
> jak bych mel upravit ten regulerni vyraz, podle nehoz to vyhledava...)
> Poradite? (hlavne ohledne toho, jak to mam pouzit v tom ~/.procmailrc)
> Dekuji.

V tom "man urlview" je to dobře popsané. Na parsování se používá implicitně
skript url_handler.sh, který se dá upravit dle potřeb a dá se použít pro
požadovaný účel i samostatně. Jako zdroj inspirace to musí stačit.

Co se týče ~/.procmailrc, tak to je zase skvěle popsané v "man procmailex"
i s příklady. Malá nápověda: na začátku řádku s příkazem je třeba použít "|".
K odstranění duplicit poslouží sort a uniq.

Jak tak na to koukám, nakonec bude stačit jeden řádek Perlu, který si poradí
i s těmi duplicitami. Naučit se regulární výrazy se určitě vyplatí.

Kit
-- 
Ing. Vlastimil Pospíchal
http://www.hoteldrnholec.cz


Další informace o konferenci Linux