stahovani clanku z root.cz

BzF bzf na centrum.cz
Pátek Duben 19 23:44:35 CEST 2002


Dne Thu, 18 Apr 2002 21:58:31 +0200
damned <lek.pbpe na cbox.cz> napsal/a:

> dobry den,
> 
> jelikoz se nachazim za modemem a kazda minutka na inetu je pro me
To znam :(
> (rodice :) draha, hledam zpusob, kterak si postahovat aktualni clanky
> z www.root.cz
No, to co nabidnu nestahne aktualni stranky samo, ale musim mu zadat
id clanku, ktere chci.
> 
> koukal jsem, ze maji nekolik podadresaru pro ruzna kodovani cestiny,
> ale nevim presne jak je jejich web organizovan. nerad bych zkousel
> nejake slepe mirrorovani vseho, to by je asi moc nepotesilo ...
> 
Taky myslim (i kdyz predpokladam, ze tam maji robots.txt a tam omezeni -
a httrack to respektuje - pokud mu nereknete opak).

Ja na to pouzivam httrack;
tohle je trochu upravene, co pouzivam  - je to vzdy pro 1 clanek
(ve vzoru 1234) - clanek to stahne i s obrazky a dalsimi vecmi (musi byt
vypsane vsechny typy (takze jestli mi nejaky chybi,tak si ho doplnte)
nebot NEUMI spravne pracovat s filtry - viz nize)
do jednoho adresare (tady clanek1234)
- a 1 diskusi - bez obrazku atd. do adresare diskuse
(u toho by bylo vhodne pouzit tusim:
	-N diskuse_1234.html
coz prejmenuje ten stahovany soubor na diskuse_1234.html, jinak se v tom
asi nevyznate. )
 - oboje jsou to verze vhodne pro tisk :-)

Httrack neumi stahovat rozsahy stranek, takze nejjednodusi je napsat si
nejaky maly skriptik, ktery se zepta na id prvniho a posledniho clanku,
co chci stahnout a pak uz pracuje sam.

Filtry:
neco jako:
-*.phtml -*.html -*.php proste neprojde - chtelo by je to stahovat
a odkazy z nich - a to by veru nebylo dobre))
(A to ma za nasledek i to, ze nejde stahnout soubor bez pripony)
(zkousel jsem to v maillistu, problem to je, ale reseni neni v dohledu;
jo, jeste jeden dost podstatny problem - pokud spustite httrack
interaktivne, tak to nedava mezeru za -%v, bude to vypadat napr. takto:
... -O "/home/bzf/websites/root"  -%v--depth=0 --ext-depth=0 ...
                                  ^^^^^
a nestahne to - takze bud to resit neinteraktivne nebo ho pri dotazu,
jestli ma stahovat zrusit, a ten nabizeny prikaz cut'n'paste
a dodat tam tu mezeru:
... -O "/home/bzf/websites/root"  -%v --depth=0 --ext-depth=0 ...
                                  ^^^^^^
(Autorovi jsem to psal u min. verze, rikal ze to opravi, nestalo se,
napisu mu znova)

BzF

P.S. tady je frontend k httracku pod X-ka - nevypada spatne, ale radsi
zustanu u pr.radky
http://home.hccnet.nl/paul.schuurmans/#ghttrack


Radsi se na to podivejte jestli se nezmenily nektere parametry
(hlavne u cache: -C).
A na testovani doporucuji nejake slozitejsi stranky s obrazky a odkazy
(treba serial o LaTexu ci nektery z Grafika v unixu)
-----clanky-----
httrack http://root.cz/print.phtml?id=1234 -W --depth=4 \
--ext-depth=0 -O /home/bzf/websites/root-cz/clanek1234 \
-K -%v -* +root.cz/*.exe +root.cz/*.dvi +root.cz/*.ps \
+root.cz/*.eps +root.cz/*.pdf +root.cz/*.swf +root.cz/*.pcl \
+root.cz/*.tex +root.cz/*.doc +root.cz/*.toc +root.cz/*.sh \
+root.cz/*.pl +root.cz/*.cfm +root.cz/*.jsp +root.cz/*.stm \
+root.cz/*.idc +root.cz/*.htx +root.cz/*.txt +root.cz/*.text \
+root.cz/*.xsp +root.cz/*.xml +root.cz/*.rxml +root.cz/*.cfm \
+root.cz/*.gif +root.cz/*.jpg +root.cz/*.jpeg +root.cz/*.tif \
+root.cz/*.tiff +root.cz/*.xbm +root.cz/*.fif +root.cz/*.bmp \
+root.cz/*.png +root.cz/*.ipx +root.cz/*.mpg +root.cz/*.avi \
+root.cz/*.ani +root.cz/*.mpeg +root.cz/*.mov +root.cz/*.fli \
+root.cz/*.flc +root.cz/*.viv +root.cz/*.rm +root.cz/*.rv \
+root.cz/*.asf +root.cz/*.wmv +root.cz/*.wav +root.cz/*.riff \
+root.cz/*.mp3 +root.cz/*.mid +root.cz/*.mp2 +root.cz/*.m3u \
+root.cz/*.ra +root.cz/*.voc +root.cz/*.wma +root.cz/*.scm
 \
+root.cz/*.zip +root.cz/*.arc +root.cz/*.gz +root.cz/*.z \
+root.cz/*.arj +root.cz/*.lha +root.cz/*.lay +root.cz/*.lei \
+root.cz/*.rar +root.cz/*.cab +root.cz/*.tar +root.cz/*.pak \
+root.cz/*.ace +root.cz/*.jar +root.cz/*.rpm +root.cz/*.js \
+root.cz/*.css +root.cz/*.ssi +root.cz/*.vbs +root.cz/*.dtd \
+root.cz/*.pgp +root.cz/*.gpg +root.cz/*.asc +root.cz/*.sig \
--assume phtml=text/html

-----diskuse-----
httrack \
http://root.cz/forum/diskuse.php3?clanek=1234&vlakno=0&stav=0&vse=Zobrazit+v%%B9e&print=1
 \
-W --depth=0 --ext-depth=0 -O /home/bzf/websites/root-cz/diskuse \
-C0 -K -%v -* --assume php3=text/html

> predem diky,
> cezi


Další informace o konferenci Linux