kernel panic, unable to handle ..... DELŠÍ

Roman Fordinal aben na webcom.sk
Středa Říjen 13 17:35:05 CEST 2004


Daniel Hrbac wrote:

> Dobrý den,
> 
> provozuju server s MDK 10.0 který pro 2-4 PC v siti zajišťuje poštu,
> samba/fileserver a nějaké další drobnosti. původně byla instalována
> verze 9.2, update na community 10.0 a nasledne na official. nejdrive na
> serveru byla nainstalovana distibucni jadra a jak sel cas postupne jsem
> se dopracoval ke kernelu 2.6.3-15 z update mdk.
> 
> standartně běželo na kromě služeb na serveru KDE na kterem byl pusteny
> gkrelm a sem tam jsem si na něm, jako na druhém monitoru pouštěl CDcka v
> mplayeru. server bezel jako user, ne root.
> 
> Od pocatku se cas od casu projevovalo tuhnuti po nejake dobe v řádech
> týdnů. projevy jsou vetsinou takové, že nějaká aplikace zatuhla, teď
> konkretně mplayer, ktery prehraval film, byl pauznuty a po peti hodinach
> se neprobral (prehraval film ulozeny na jinem pocitaci a nasdileny a
> pripojeny pres sambu - nemyslim si ze v tomto je problem, neni to
> typicky znak).
pozor, v 2.6.* kerneloch sa vyskytuju problemy so sambou.
je lepsie pokial clovek mountuje pomocou cifs, pokial connectuje
na win2000 alebo samba3.*

celkovo by som kernel upgradol na 2.6.8, do 2.6.5 tam bolo este
privela bugov.

> Zcela nahodne, vetsinou po delši době v řádech týdnů, server přestane
> téměř reagovat, nejede sdílení v sambě, nejde sendmail. Samozřejmě, že
> na to přijde zaměstnankyně, když já jsem mimo.
neprijemne :)

> Pokud je to varianta, že zatuhne aplikace ale shell ještě reaguje, tak
> při zadání např. killall gmplayer server vytuhne úplně včetně shellu.
> Pokud je to varianta, že vytuhne pouze samba a sendmail, tak s ním nic
> nenadělám a je nutný reboot také. na reakce typu service sendmail
> restart apod. nereaguje, nepomuze to, nebo většinou vytuhne.
scheduller?


> Pokud stihnu v takovémto případě zadat reboot, tak proběhne částečně a
> před odpojením disků vypíše hlášku, kterou nejsem schopen pořádně
> reprodukovat, protože ji nezaznamená nikde do logů. vypadá nějak takto:
> 
> 02 56 32 02 02 59 29 02 56 32 02 02 59 29 02 56 32 02 02 59 29 02 56
> 32 02 02 59 29 02 56 32 02 02 59 29 02 56 32 02 02 59 29 02 56 32 02 02
> 59 29
> Kernel panic: unable to handle interupt request
> 
> Ta čísla jsou v zásadě náhodná, ne jako ta moje. Z textu hlášení jsem
> pochopil že při restartu kernel nezvládá jakési přerušení. v
> logu/kernel/errors jsem našel něco takovéhoto:
> 
> Oct 10 19:15:15 AKserver kernel: *pde = 00000000
> Oct 10 19:18:43 AKserver last message repeated 3 times
> Oct 10 19:18:43 AKserver kernel: *pde = 00000000
> Oct 12 22:18:30 AKserver kernel: Unable to handle kernel NULL pointer
> dereference at virtual address 00000064
> Oct 12 22:18:30 AKserver kernel: *pde = 00000000
> Oct 12 22:28:55 AKserver kernel: Unable to handle kernel paging request
> at virtual address e19eb610
> Oct 12 22:28:55 AKserver kernel: *pde = 1fe62067
> Oct 12 22:28:55 AKserver kernel: *pte = 00000000
> Oct 12 22:45:38 AKserver kernel: Unable to handle kernel paging request
> at virtual address e1d554c0
> Oct 12 22:45:38 AKserver kernel: *pde = 1e078067
> Oct 12 22:45:38 AKserver kernel: *pte = 00000000
> Oct 13 00:31:25 AKserver kernel: Unable to handle kernel paging request
> at virtual address e1d56620
> Oct 13 00:31:25 AKserver kernel: *pde = 1e171067
> Oct 13 00:31:25 AKserver kernel: *pte = 00000000
> 
> 
> Ten paging request mi ale spíš připomíná chybu paměti nebo nejaké dělení
> nulou. To by byla chyba aplikace nebo paměti. Co se týká paměti pustl
> jsem jenom test při bootování a ten nic nenajde.
> 
> 
> Nicméně každá tahle situace skončí tvrdým resetem a následnou kontrolou
> dat. V poslední době se tyto situace stávají častějšími. Z intervalu 2-4
> týdny jsem se dopracoval na 3-5 dnů. Pokud si vzpomenu a server
> restartnu někdy mezitím, tak ho někdy zachráním a dopadne to dobře, tj.
> rebootem bez chyb a někdy jakoby ta chybka tam seděla a čekala na reboot
> aby se projevila, nebo na nějakou aplikaci, která si šáhne tam kam nemá.
> 
> V posledním případě to způsobilo dost problém, protože to při kontzrole
> disku našlo hodně chyb a odstranilo hodně souborů v důsledku čehož
> nejede kde a jsem v textovém režimu. ale to je jiná pohádka, kterou dám
> do samostatného vlákna.
> 
> Prosím o myšlenku kudy začít pátrat po problému.
v prvom rade by som skusil upgrade na 2.6.8 kernel a a pokial sa
problem bude opakovat tak by som ho hladal v niektorom konkretnom
driveri. takze uplne vycistit kernel .config a nechat tam len najnutnejsie
veci a vypnut vsetky prebytocne sluzby a nechat len tie najnutnejsie.



Další informace o konferenci Linux