trideni textoveho souboru
Michal Krause
michal na krause.cz
Čtvrtek Červen 8 14:06:01 CEST 2000
On 08/06/2000, Pavel Kankovsky wrote:
> > myslim, ze problem nastane v pripade, ze tie opakujuce sa riadky nie su za
> > sebou a dany clovek nechce menit poradie riadkov ( nemoze ) ..
>
> cat -n soubor | sort -u -k 2 | sort -k 1 | cut -f 2-
>
> > asi to skor vyriesi nejaky programcek, ktory si bude pamata vyskyt riadkov (
> > mna napada perl )
>
> problem je, ze to pri 40 megach dat muze byt o poznani pomalejsi, nez
> dva pruchody sortem (ktery je na trideni velkych souboru optimalizovany)
To bych nerekl. Zrovna vcera jsem pri testovani map v C++ zkousel
zjistit pocet unikatnich IP adres v souboru (to je takovy muj oblibeny
test) a 13 MB soubor (1 milion radku) se timto zpusobem prechroustal za
18 vterin. Kombinace sort | uniq na tom pracovala nekolik minut. Je
pravda, ze pametove naroky meho programku byly vyrazne vyssi (protoze v
tom souboru bylo zhruba 10% polozek unikatnich). Zkratka myslim si, ze
nejaky hashovaci mechanismus je v tomto pripade mnohem efektivnejsi.
S pozdravem
--
Michal Krause /\
ICQ: 7665279 Informace (nejenom) ze sveta Linuxu /\/ \
email: mike na navrcholu.cz ______ http://www.root.cz/ ______ NAVRCHOLU.cz
Kdyz instalujes novy motherboard, over si, jestli jadro detekuje spravne
dostupnou operacni pamet. Stare aztecke prislovi
Další informace o konferenci Linux