trideni textoveho souboru

Michal Krause michal na krause.cz
Čtvrtek Červen 8 14:06:01 CEST 2000


On 08/06/2000, Pavel Kankovsky wrote:

> > myslim, ze problem nastane v pripade, ze tie opakujuce sa riadky nie su za
> > sebou a dany clovek nechce menit poradie riadkov ( nemoze ) ..
> 
> cat -n soubor | sort -u -k 2 | sort -k 1 | cut -f 2-
> 
> > asi to skor vyriesi nejaky programcek, ktory si bude pamata vyskyt riadkov (
> > mna napada perl )
> 
> problem je, ze to pri 40 megach dat muze byt o poznani pomalejsi, nez
> dva pruchody sortem (ktery je na trideni velkych souboru optimalizovany)

To bych nerekl. Zrovna vcera jsem pri testovani map v C++ zkousel
zjistit pocet unikatnich IP adres v souboru (to je takovy muj oblibeny
test) a 13 MB soubor (1 milion radku) se timto zpusobem prechroustal za
18 vterin. Kombinace sort | uniq na tom pracovala nekolik minut. Je
pravda, ze pametove naroky meho programku byly vyrazne vyssi (protoze v
tom souboru bylo zhruba 10% polozek unikatnich). Zkratka myslim si, ze
nejaky hashovaci mechanismus je v tomto pripade mnohem efektivnejsi.

S pozdravem
--
Michal Krause                                                      /\
ICQ: 7665279            Informace (nejenom) ze sveta Linuxu     /\/  \
email: mike na navrcholu.cz ______ http://www.root.cz/ ______ NAVRCHOLU.cz

Kdyz instalujes novy motherboard, over si, jestli jadro detekuje spravne
dostupnou operacni pamet.                         Stare aztecke prislovi


Další informace o konferenci Linux