Script na parsovani souboru kvuli internetovym adresam? (dodatek)
Ing. Vlastimil Pospíchal
vpospichal na tiscali.cz
Středa Duben 16 07:36:30 CEST 2003
On Wed, Apr 16, 2003 at 02:58:04AM +0200, Matous Jan Fialka wrote:
> > > man urlview
> > > Kit
> >
> > Hezke, moc hezke :-)
> > Dekuji za upozorneni, neznal jsem to. Ale jak to mam pouzit v mem
> > ~/.procmailrc ? Nejak se mi to nedari rozchodit ani tak, aby to fungovalo
> > jako filtr ze souboru do souboru na prikazove radce... :-(
> > Jo, abych nezapomel, vysledny soubor by mel byt normalni *textovy* soubor!
> > Dekuji...
>
> Pardon, ze takhle prodluzuju tenhle thread, ale...
> Ted najednou koukam... a vidim: Ono to navic najde i emailove adresy
> (retezce s "@", napriklad to naleza veci jako:
> "mailto:nekdo na nekde.neco.xx"), coz tedy rozhodne nepotrebuju (a ani netusim,
> jak bych mel upravit ten regulerni vyraz, podle nehoz to vyhledava...)
> Poradite? (hlavne ohledne toho, jak to mam pouzit v tom ~/.procmailrc)
> Dekuji.
V tom "man urlview" je to dobře popsané. Na parsování se používá implicitně
skript url_handler.sh, který se dá upravit dle potřeb a dá se použít pro
požadovaný účel i samostatně. Jako zdroj inspirace to musí stačit.
Co se týče ~/.procmailrc, tak to je zase skvěle popsané v "man procmailex"
i s příklady. Malá nápověda: na začátku řádku s příkazem je třeba použít "|".
K odstranění duplicit poslouží sort a uniq.
Jak tak na to koukám, nakonec bude stačit jeden řádek Perlu, který si poradí
i s těmi duplicitami. Naučit se regulární výrazy se určitě vyplatí.
Kit
--
Ing. Vlastimil Pospíchal
http://www.hoteldrnholec.cz
Další informace o konferenci Linux