Zrejme chyba v jadre Linuxu? (Re: Linux je na h...)

Petr Tesarik tesarik na petr.lupa.cz
Středa Červenec 14 13:44:21 CEST 1999


Dne Wed, Jul 14, 1999 at 01:14:17PM +0200, Petr Snajdr napsal:
> On Wed, 14 Jul 1999, Petr Tesarik wrote:
> 
> Dovolil jsem si zmenit subjekt na mene emotivne zamereny :-)

OK, psal jsem to totiz ve chvili, kdy jsem prave volal tu technickou
podporu. :)

> > BTW dalo by se nejak vymyslet, aby (kdyz uz tem padum nezabranim) se
> > to alespon nejak automaticky rebootovalo? watchdog device je sice
> > fajn, ale tohle neodhali, protoze jadro jede dal, jenom prestane
> > fungovat TCP/IP. :-((
> 
> Podle toho co jsem sledoval tak stav vypada takto:
>  pocitac bezi jako by se nic nedelo, pouze sit je naprosto mimo s tim, ze
> netstat ukazuje radu spojeni, ktera timeoutuji (zrejme). 
> Ze site se na pocitac samozrejme take nelze dostat a ani nepinga.

Jo, to je presne ono, akorat, ze to neni tak uplne pravda. Vysledoval
jsem toto:

     03:47	"cannot load interpreter"
     05:53	posledni obslouzeny HTTP (port 80)
     10:20	posledni prijaty mail (port 25)
     10:38	prokazatelne jeste fungoval BIND
     11:15	uz nefungoval ani ping

Vic jsem toho bohuzel nezachytil, ale je z toho zrejme, ze to cele
odumira postupne.

> Moznosti je nekolik:
> 
> obcas porovnat netstat -ant a pokud se dlouho nic nemeni tak rebootovat,
> pokusit se zjistit zdali pres nejaky interface tecou nejaka data
> a vubec mnetody tohohle razeni. 

Jo, to by slo. Sledovat /proc/net/ip_acct...

> > A nejhorsi na vsem je, ze na tom samem jadru (2.0.36) to bez problemu
> > fungovalo od jeho uvedeni az do pondeli, ale od pondeli to pada
> > denne. Ze bych pro zmenu zkusil FreeBSD..?
> 
> Chce to zjistit zdali to neni:
> 
> 	- HW chybou

Na stejnem HW to funguje uz pres pul druheho roku. Navic se nikde
neobjevuji hlasky, ktere by ji nasvedcovaly.

> 	- tim ze na pocitac nekdo utoci

Opet nikoli. Zda se, ze to deterministicky (treti den po sobe) pada
behem automaticke nocni udrzby dat, kdy asi dojde k tomu velkemu
loadu.

> 	- neni nejaky neporadek po siti nebo neco
> 	  v neporadku se sitovkou (prohlednout logy, podivat
>           se na pocty chyb, kolizi atd.)

Vsechno v norme.

> 	- vyzkouset jina jadra, vyfiltrovat cokoliv
> 	  na co nema kdo chodit pres ipfwadm nebo ipchains atd.

OK, zkousim 2.0.37. Da se verit rade 2.2.x na zatizenem serveru? Zatim
jsem experimentoval s 2.2.8 a dopadlo to dost neslavne - na stroji,
zatizenem podstatne mene, to padalo cca jednou za 14 dni. Opet z
neznamych pricin, ale to mohl byt i utok zvenci, takze nevim.

> 	- zamyslet se nad tim FreeBSD. Osobne mi to prijde jako
>           dobra volba. Uz delsi dobu se nemohu ubranit
>           tomuto myslenkovemu pochodu:
> 		Microsoft -> (RedHat) -> Linux -> FreeBSD

Jo, zpozoroval jsem tenhle vyvoj uz u nekolika serveru. Vzdycky jsem
se divil, co na tom FreeBSD vidi. :) Ale nechci tu rozjizdet nejaky
flamewar - sam jsem jeste administrovat FreeBSD nezkousel.

bye,
-- 
Petr Tesarik
Tel: +420 602 575294		http://www.lupa.cz/


Další informace o konferenci Linux