váhavý, loudavý, usínající S.M.A.R.T. self test

Petr Stehlik pstehlik na sophics.cz
Středa Květen 13 09:41:54 CEST 2009


Zdar ve středu,

mám disk Seagate Barracuda ES ST3320620NS (firmware 3.AEG), který byl se
stejným bráchou v Linux SW RAID1, každou noc na nich probíhaly short
S.M.A.R.T. self testy (díky smartmontools) a jednou týdně long testy a
vše bylo v pořádku.

Pak jsem upgradoval kernel z 2.6.22 na 2.6.26 a dělal ještě pár změn a
naráz jsem si všiml, že ty self testy neprobíhají - že prostě zůstávají
trčet na třeba "90%" (či jiné hodnotě) celé týdny.

Vypadalo to, že je to způsobené tím upgradem kernelu, takže jsem
upgradoval ještě smartmontools a když to nepomohlo, tak jsem nakonec
vyměnil jeden z těch Seagatů v RAID1 za Western Digital a ten uvolněný
Seagate jsem zapojil do testovacího stroje na pokusy.

Zajímavá fakta:

1) self testy na Western Digitalu probíhají OK, na Seagatu pořád
zůstávají trčet - takže to nevypadá na chybu (upgrade) kernelu, anebo se
to projevuje jen ve spojitosti s tímto konkrétním Seagate diskem.

2) pokud se opakovaně ptám na stav self testu (watch 'smartctl -l
selftest /dev/sdX'), tak ho během pár minut "dostrkám" z těch zatuhlých
XX% až do úspěšného(?) konce - otázka samozřejmě je, jak moc můžu
takovým výsledkům věřit...

3) pokud na testovacím stroji nabootuju z jiného disku, tak short self
test na tom uvolněném Seagatu proběhne ihned (do minuty) tak, jak má.

4) pokud na testovacím stroji nabootuju normálně z toho Seagate disku,
tak short self test probíhá podle toho, kolik věcí běží (a tedy
čte/zapisuje na ten disk) - konkrétně pokud všechny služby a démony
zastavím, tak short self test je do minuty OK, pokud pustím NUT (Network
UPS Tools), tak se short self test zasekne hned na začátku (90%), pokud
spustím virtuální servery (linux-vservers), tak v závislosti na tom,
které spustím se short self test (normálně minutový) protahuje klidně na
10 minut i déle, případně opět usne a nepokračuje vůbec. Testovací stroj
přitom není zapojen do internetu, takže spuštěné služby a virtuály by
neměly nic moc dělat, vše je poměrně idle - přesto to jaksi ovlivňuje
ten S.M.A.R.T. selftest.

Je obtížné to nějak lépe zdokumentovat, protože prostým pozorováním děje
(smartctl -l selftest) děj výrazně ovlivňuji (viz postrkování).

Moc by mě zajímalo, jestli se někdo setkal s podobným chováním
S.M.A.R.T. self testů a má-li tušení, jak ten systém opravit tak, aby ty
testy na tom Seagatu opět probíhaly normálně.

Dodávám, že tu mám řadu jiných strojů v téměř stejných HW i SW
konfiguracích a takovýto problém s usínajícími S.M.A.R.T. testy jsem
nikde jinde nezaznamenal.

Díky

Petr

P.S. perlička: po jednom vypnutí/zapnutí stroje se ten Seagate už prostě
nepřihlásil na sběrnici, vypadá zcela elektronicky mrtvý, ale nahradil
jsem ho záložním diskem s jen nepatrně novějším firmware (3.AEK), který
se chová naprosto stejně problematicky.





Další informace o konferenci Linux