HW reset pocitace pri TCP prenosu
Petr Skoda
skoda na pleione.asu.cas.cz
Čtvrtek Leden 16 23:09:11 CET 2003
prosim kernel gurus o pomoc:
Mame naprostou zahadu ktera se da shrnout tak,
Po upgradu na RH8.0 na serveru zavolame na jednom stroji lpr vuci
serveru a okamzite se
stroj resetuje jako by zmacklo tlacitko - vcetne testu pameti v POSTu.
Dela to pouze na jednom specifickem pocitaci na kterem je VIA Apollo
a sitova karta ktera se pozna jako 8139 C . Tiskne se lpr klientem vuci
lprng na serveru. Sit je 100Mbit na switchi 3com - kazdy stroj ma vlastni
drat do switche a jede plnych 100Mbit full duplex.
Ted co se delo - drive byl na tomto stroji RH7.2 tak jak vysel na CD
(sitovy modul 8139too)
Na tiskovem serveru byl standardni RH7.3 (je to IBM server s PIII a kartou
na boardu co se hlasi na modul eepro100). vse bylo OK
Nedavno kolega na serveru nainstaloval RH8.0 a od te doby stacilo dat na
vyse uvedenem klientu lpr -Ptiskarna na server
a behem par mziku sel klientuv system do tvrdeho resetu (coz me samo
vylekalo,
protoze co ma nejaky hloupy user-space program spousteny pod normalnim
uzivatelem co shazovat nejen jadro, ale bez hlesu zavolat HW reset!)
Aby byla situace veselejsi, kolega onoho klienta preinstalovat taky na
RH8.0 (stale se detekuje a instaluje modul 8139too ).
Od te doby nejen dojde k resetu po lpr ale i pri jakemkoli bulk prenosu
dat (stacilo udelat ftp na jakykoli server - dokonce i Sparc se solarisem
7 - na 100Mbit rychlosti a system sel do HW resetu ).
Totez pri kopirovani pres automountovany NFS filesystem (i na sparcu)
Ale nepadlo to pri jakemkoli zdrzeni prenosu (scp nepadal - ze by zpozdeni
sifrovanim), nebo kdyz jsem lpr volal pres strace
(strace lpr -Ptisk na server soubor >& log ) .
Takze moje teorie rika, ze to najak souvisi s rychlym prenosem velkeho
mnozstvi dat pres TCP (ten NFS byl taky v3 na TCP) jako by se najak ta
karta zahltila a shodi cele jadro natvrdo (ale proc do resetu ? bez
jedine hlasky).Bezny provoz tomu nevadil - ssh spojeni, prohlizeni
lokalniho http serveru na stejne siti.
Nejdriv te problem byl jen pri obtezovani serveru s novym jadrem (nic
jineho nez lpr se vuci nemu nedelalo - takze nevim, zda by padlo FTP ci
NFS, ale ted po upgradu klienta uz je to spatne vuci cemukoli.
pritom ale jine stroje s 8139 kartou, ale na Intel chipsetech s P4 vuci
upgradovanemu serveru i sunum chodi bez problemu a to i kdyz maji na sobe
jak
RH 7.2,7.3 tak i 8.0 .
Pri pohledu do changelogu jader na kernel.org jsem zjistil, ze
mezi verzemi 2.4.9 (RH7.2) a 2.4.18 (RH8.0) se autori hrabali do modulu
eepro (2.4.15 - viz server) a 8139too (uz 2.4.18pre4 ) a cosi tam
opravovali a u 8139too byl dokonce3 pridan nejaky beta pokus o RX reset.
Bohuzel nemuzu nejak najit co bylo puvodne na te 7.3 na serveru za jadro a
verzi eepro.
A navic nevim co z toho dali RH do svych jader proti kernel.org verzim.
Kazdopadne, nez zacnu podrobne zkoumat chipsety obou stroju a verze vseho
mozneho kolem siti apod,.. myslite, ze na te teorii ze za to muze zmena
sitoveho driveru neco muze byt ?
Je normalni aby slo na chybu jadro hned do HW resetu stroje ?
Bez jedinne zminky v logu, zadny kernel panic apod...
Doufam, ze nemusim zminovat, ze jsem prohledal bugzillu RH horem dolem
a snazil se najit i v Kernel dokumentaci co se dalo.
Diky moc za kazdou poznamku co by problem pomohla vyresit
*************************************************************************
* Petr Skoda Tel : (323) 649201, l. 361 *
* Stelarni oddeleni (323) 620361, 620136 *
* Astronomicky ustav AVCR Fax : (323) 620250 *
* 251 65 Ondrejov e-mail: skoda na sunstel.asu.cas.cz *
* Ceska republika pskoda na mbox.cesnet.cz *
*************************************************************************
Další informace o konferenci Linux