HW reset pocitace pri TCP prenosu

Čtvrtek Leden 16 23:09:11 CET 2003

prosim kernel gurus o pomoc:

Mame naprostou zahadu ktera se da shrnout tak,

Po upgradu na RH8.0 na serveru  zavolame na jednom stroji lpr vuci
serveru a okamzite se
stroj resetuje jako by zmacklo tlacitko - vcetne testu pameti v POSTu.

Dela to pouze na jednom specifickem pocitaci na kterem je VIA Apollo
a sitova karta ktera se pozna jako 8139 C . Tiskne se lpr klientem vuci
lprng na serveru. Sit je 100Mbit na switchi 3com - kazdy stroj ma vlastni
drat do switche a jede plnych 100Mbit full duplex.

Ted co se delo - drive byl na tomto stroji RH7.2 tak jak vysel na CD
(sitovy modul 8139too)
Na tiskovem serveru byl standardni RH7.3 (je to IBM server s PIII a kartou
na boardu co se hlasi na modul eepro100). vse bylo OK
Nedavno kolega na serveru nainstaloval RH8.0 a od te doby stacilo dat na
vyse uvedenem klientu lpr -Ptiskarna na server
a behem par mziku sel klientuv system  do tvrdeho resetu (coz me samo
vylekalo,
protoze co ma nejaky hloupy user-space program spousteny pod normalnim
uzivatelem co shazovat nejen jadro, ale bez hlesu zavolat HW reset!)

Aby byla situace veselejsi, kolega onoho klienta preinstalovat taky na
RH8.0 (stale se detekuje a instaluje modul 8139too ).
Od te doby nejen dojde k resetu po lpr ale i pri jakemkoli bulk prenosu
dat (stacilo udelat ftp na jakykoli server - dokonce i Sparc se solarisem
7 - na 100Mbit rychlosti a system sel do HW resetu ).
Totez pri kopirovani pres automountovany NFS filesystem (i na sparcu)
Ale nepadlo to pri jakemkoli zdrzeni prenosu (scp nepadal - ze by zpozdeni
sifrovanim), nebo kdyz jsem lpr volal pres strace
(strace lpr -Ptisk na server soubor >& log ) .

Takze moje teorie rika, ze to najak souvisi s rychlym prenosem velkeho
mnozstvi dat pres TCP (ten NFS byl taky v3 na TCP) jako by se najak ta
karta zahltila a shodi cele jadro natvrdo (ale proc do resetu ? bez
jedine hlasky).Bezny provoz tomu nevadil - ssh spojeni, prohlizeni
lokalniho http serveru na stejne siti.

Nejdriv te problem byl jen pri obtezovani serveru s novym jadrem (nic
jineho nez lpr se vuci nemu nedelalo - takze nevim, zda by padlo FTP ci
NFS, ale ted po upgradu klienta uz je to spatne vuci cemukoli.
pritom ale jine stroje s 8139 kartou, ale na Intel chipsetech s P4 vuci
upgradovanemu serveru i sunum chodi bez problemu a to i kdyz maji na sobe
jak
RH 7.2,7.3 tak i 8.0 .

Pri pohledu do changelogu jader na kernel.org jsem zjistil, ze
mezi verzemi 2.4.9 (RH7.2) a 2.4.18 (RH8.0) se autori hrabali do modulu
eepro (2.4.15 - viz server) a 8139too (uz 2.4.18pre4 ) a cosi tam
opravovali a u 8139too byl dokonce3 pridan nejaky beta pokus o RX reset.
Bohuzel nemuzu nejak najit co bylo puvodne na te 7.3 na serveru za jadro a
verzi eepro.
A navic nevim co z toho dali RH do svych jader proti kernel.org verzim.

Kazdopadne, nez zacnu podrobne zkoumat chipsety obou stroju a verze vseho
mozneho kolem siti apod,.. myslite, ze na te teorii ze za to muze zmena
sitoveho driveru neco muze byt ?

Je normalni aby slo na chybu jadro hned do HW resetu stroje ?
Bez jedinne zminky v logu, zadny kernel panic apod...

Doufam, ze nemusim zminovat, ze jsem prohledal bugzillu RH horem dolem
a snazil se najit i v Kernel dokumentaci co se dalo.

Diky moc za kazdou poznamku co by problem pomohla vyresit

*************************************************************************
*  Petr Skoda                         Tel   : (323) 649201, l. 361     *
*  Stelarni oddeleni                          (323) 620361, 620136     *
*  Astronomicky ustav AVCR            Fax   : (323) 620250             *
*  251 65 Ondrejov                    e-mail: skoda na sunstel.asu.cas.cz  *
*  Ceska republika                            pskoda na mbox.cesnet.cz     *
*************************************************************************