Problém s HW, ale kde to je?

Pavel Lisy pali na tmapy.cz
Neděle Březen 1 19:15:51 CET 2009


Dobrý večer

na jednom počítači se mi začal objevovat podivný problém. Dist. je
Fedora 10.

Celá anabáze začala zhroucením filesystému, kterou jsem opravil pomocí
"fsck -y /dev/sda3" v single user módu, v což vypisovalo mraky změn, pak
se to chovalo očekávaně nestabilně. Zkusil jsem to opravit z jiného
počítače se stejnou distribucí, což už mi v minulosti při jiných
haváriích FS pomohlo (ale v případě úplně jiných strojů a problémů).

rsync -av --existing -e ssh /bin/ xxxxx-desktop:/bin/ 
rsync -av --existing -e ssh /sbin/ xxxxx-desktop:/sbin/ 
rsync -av --existing -e ssh /lib/ xxxxx-desktop:/lib/
rsync -av --existing -e ssh /usr/ xxxxx-desktop:/usr/
...

To sice pomohlo, ale stále bylo něco s dbus-em a nepodařilo se mi
opravit přihlašování (toto hlásilo stále nějaký problém:
gdm-simple-greeter, gdm-session-worker) a zvuk. 

Nakonec jsem celý systém znovu nainstaloval, ale projevuje se stále
nestabilně, tak mám podezření na hardware, ale potřeboval bych poradit,
jestli by vás někoho nenapadlo, v čem by mohl problém být.

V /var/log/messages se objevuje toto:

Feb 28 10:42:55 xxxxx-desktop kernel: yum[3462]: segfault at fffffffb ip 00341302 sp bf8fc798 error 4 in libc-2.9.so[2d0000+16e000]
Feb 28 17:38:43 xxxxx-desktop kernel: yum[5456]: segfault at 80004 ip 026e399e sp bf80f620 error 4 in libpython2.5.so.1.0[2611000+125000]
Feb 28 17:43:27 xxxxx-desktop kernel: yum[5553]: segfault at 56 ip 026e39a1 sp bfbc7fa0 error 4 in libpython2.5.so.1.0[2611000+125000]
Feb 28 17:50:46 xxxxx-desktop kernel: yum[11321]: segfault at 47055 ip 026e39a1 sp bfd16320 error 4 in libpython2.5.so.1.0[2611000+125000]
Feb 28 17:56:33 xxxxx-desktop kernel: yum[11746]: segfault at 96acaac ip 0266bb15 sp bfaf9b00 error 4 in libpython2.5.so.1.0[2611000+125000]
Feb 28 17:57:08 xxxxx-desktop kernel: yum[11787]: segfault at 850fd2da ip 026e39a1 sp bfd30bc0 error 4 in libpython2.5.so.1.0[2611000+125000]
Feb 28 17:08:03 xxxxx-desktop kernel: yum[12534]: segfault at 55 ip 026e39a1 sp bfae38f0 error 4 in libpython2.5.so.1.0[2611000+125000]
Feb 28 17:09:29 xxxxx-desktop kernel: yum[12614]: segfault at 532a ip 0266b098 sp bf95b650 error 4 in libpython2.5.so.1.0[2611000+125000]
Feb 28 17:21:19 xxxxx-desktop kernel: npviewer.bin[13641]: segfault at b6f6d030 ip 00601a00 sp bfe886e4 error 4 in libpthread-2.9.so[5fa000+16000]
Feb 28 17:21:59 xxxxx-desktop kernel: npviewer.bin[13901]: segfault at b6f87030 ip 00601a00 sp bfba2b54 error 4 in libpthread-2.9.so[5fa000+16000]
Mar  1 17:29:04 xxxxx-desktop kernel: bluefish[3033]: segfault at 166 ip 007464c0 sp bfe3c5f0 error 4 in libgobject-2.0.so.0.1800.4[73b000+40000]
Mar  1 18:44:57 xxxxx-desktop kernel: yumBackend.py[3178]: segfault at e671dc99 ip 0266b098 sp bfc408f0 error 5 in libpython2.5.so.1.0[2611000+125000]

První, co mě napadlo, bylo, že je problém s pamětí, ale memtest (jeden
průchod cca 40 min) žádnou chybu nenašel. Nemám s memtestem ale moc
zkušeností, tak nevím, zda jeden průchod stačí. Zkoušel jsem i smartctl,
ale tam to na nějaké chyby také  nevypadá. 

Čím by to tak ještě mohlo být? Může něco podobného způsobit vadný
procesor, nějaká (síťová, grafická, zvuková) karta nebo to bude v
paměti, ale memtest mám nechat běžet déle?

Prosím o všechny názory, díky.

Pavel

-- 
Pavel Lisy <pali na tmapy.cz>




Další informace o konferenci Linux