kernel panic, unable to handle ..... DELŠÍ

Daniel Hrbac talk na advokati.biz
Středa Říjen 13 19:16:21 CEST 2004


Dobrý den,

provozuju server s MDK 10.0 který pro 2-4 PC v siti zajišťuje poštu,
samba/fileserver a nějaké další drobnosti. původně byla instalována
verze 9.2, update na community 10.0 a nasledne na official. nejdrive na
serveru byla nainstalovana distibucni jadra a jak sel cas postupne jsem
se dopracoval ke kernelu 2.6.3-15 z update mdk.

standartně běželo na kromě služeb na serveru KDE na kterem byl pusteny
gkrelm a sem tam jsem si na něm, jako na druhém monitoru pouštěl CDcka v
mplayeru. server bezel jako user, ne root.

Od pocatku se cas od casu projevovalo tuhnuti po nejake dobe v řádech
týdnů. projevy jsou vetsinou takové, že nějaká aplikace zatuhla, teď
konkretně mplayer, ktery prehraval film, byl pauznuty a po peti hodinach
se neprobral (prehraval film ulozeny na jinem pocitaci a nasdileny a
pripojeny pres sambu - nemyslim si ze v tomto je problem, neni to
typicky znak).

Zcela nahodne, vetsinou po delši době v řádech týdnů, server přestane
téměř reagovat, nejede sdílení v sambě, nejde sendmail. Samozřejmě, že
na to přijde zaměstnankyně, když já jsem mimo.

Pokud je to varianta, že zatuhne aplikace ale shell ještě reaguje, tak
při zadání např. killall gmplayer server vytuhne úplně včetně shellu.
Pokud je to varianta, že vytuhne pouze samba a sendmail, tak s ním nic
nenadělám a je nutný reboot také. na reakce typu service sendmail
restart apod. nereaguje, nepomuze to, nebo většinou vytuhne.

Pokud stihnu v takovémto případě zadat reboot, tak proběhne částečně a
před odpojením disků vypíše hlášku, kterou nejsem schopen pořádně
reprodukovat, protože ji nezaznamená nikde do logů. vypadá nějak takto:

02 56 32 02 02 59 29 02 56 32 02 02 59 29 02 56 32 02 02 59 29 02 56
32 02 02 59 29 02 56 32 02 02 59 29 02 56 32 02 02 59 29 02 56 32 02 02
59 29
Kernel panic: unable to handle interupt request

Ta čísla jsou v zásadě náhodná, ne jako ta moje. Z textu hlášení jsem
pochopil že při restartu kernel nezvládá jakési přerušení. v
logu/kernel/errors jsem našel něco takovéhoto:

Oct 10 19:15:15 AKserver kernel: *pde = 00000000
Oct 10 19:18:43 AKserver last message repeated 3 times
Oct 10 19:18:43 AKserver kernel: *pde = 00000000
Oct 12 22:18:30 AKserver kernel: Unable to handle kernel NULL pointer
dereference at virtual address 00000064
Oct 12 22:18:30 AKserver kernel: *pde = 00000000
Oct 12 22:28:55 AKserver kernel: Unable to handle kernel paging request
at virtual address e19eb610
Oct 12 22:28:55 AKserver kernel: *pde = 1fe62067
Oct 12 22:28:55 AKserver kernel: *pte = 00000000
Oct 12 22:45:38 AKserver kernel: Unable to handle kernel paging request
at virtual address e1d554c0
Oct 12 22:45:38 AKserver kernel: *pde = 1e078067
Oct 12 22:45:38 AKserver kernel: *pte = 00000000
Oct 13 00:31:25 AKserver kernel: Unable to handle kernel paging request
at virtual address e1d56620
Oct 13 00:31:25 AKserver kernel: *pde = 1e171067
Oct 13 00:31:25 AKserver kernel: *pte = 00000000


Ten paging request mi ale spíš připomíná chybu paměti nebo nejaké dělení
nulou. To by byla chyba aplikace nebo paměti. Co se týká paměti pustl
jsem jenom test při bootování a ten nic nenajde.


Nicméně každá tahle situace skončí tvrdým resetem a následnou kontrolou
dat. V poslední době se tyto situace stávají častějšími. Z intervalu 2-4
týdny jsem se dopracoval na 3-5 dnů. Pokud si vzpomenu a server
restartnu někdy mezitím, tak ho někdy zachráním a dopadne to dobře, tj.
rebootem bez chyb a někdy jakoby ta chybka tam seděla a čekala na reboot
aby se projevila, nebo na nějakou aplikaci, která si šáhne tam kam nemá.

V posledním případě to způsobilo dost problém, protože to při kontzrole
disku našlo hodně chyb a odstranilo hodně souborů v důsledku čehož
nejede kde a jsem v textovém režimu. ale to je jiná pohádka, kterou dám
do samostatného vlákna.

Prosím o myšlenku kudy začít pátrat po problému.

Děkuji,



-- 
Daniel Hrbac
talk na advokati.biz



Další informace o konferenci Linux