váhavý, loudavý, usínající S.M.A.R.T. self test
Petr Stehlik
pstehlik na sophics.cz
Středa Květen 13 09:41:54 CEST 2009
Zdar ve středu,
mám disk Seagate Barracuda ES ST3320620NS (firmware 3.AEG), který byl se
stejným bráchou v Linux SW RAID1, každou noc na nich probíhaly short
S.M.A.R.T. self testy (díky smartmontools) a jednou týdně long testy a
vše bylo v pořádku.
Pak jsem upgradoval kernel z 2.6.22 na 2.6.26 a dělal ještě pár změn a
naráz jsem si všiml, že ty self testy neprobíhají - že prostě zůstávají
trčet na třeba "90%" (či jiné hodnotě) celé týdny.
Vypadalo to, že je to způsobené tím upgradem kernelu, takže jsem
upgradoval ještě smartmontools a když to nepomohlo, tak jsem nakonec
vyměnil jeden z těch Seagatů v RAID1 za Western Digital a ten uvolněný
Seagate jsem zapojil do testovacího stroje na pokusy.
Zajímavá fakta:
1) self testy na Western Digitalu probíhají OK, na Seagatu pořád
zůstávají trčet - takže to nevypadá na chybu (upgrade) kernelu, anebo se
to projevuje jen ve spojitosti s tímto konkrétním Seagate diskem.
2) pokud se opakovaně ptám na stav self testu (watch 'smartctl -l
selftest /dev/sdX'), tak ho během pár minut "dostrkám" z těch zatuhlých
XX% až do úspěšného(?) konce - otázka samozřejmě je, jak moc můžu
takovým výsledkům věřit...
3) pokud na testovacím stroji nabootuju z jiného disku, tak short self
test na tom uvolněném Seagatu proběhne ihned (do minuty) tak, jak má.
4) pokud na testovacím stroji nabootuju normálně z toho Seagate disku,
tak short self test probíhá podle toho, kolik věcí běží (a tedy
čte/zapisuje na ten disk) - konkrétně pokud všechny služby a démony
zastavím, tak short self test je do minuty OK, pokud pustím NUT (Network
UPS Tools), tak se short self test zasekne hned na začátku (90%), pokud
spustím virtuální servery (linux-vservers), tak v závislosti na tom,
které spustím se short self test (normálně minutový) protahuje klidně na
10 minut i déle, případně opět usne a nepokračuje vůbec. Testovací stroj
přitom není zapojen do internetu, takže spuštěné služby a virtuály by
neměly nic moc dělat, vše je poměrně idle - přesto to jaksi ovlivňuje
ten S.M.A.R.T. selftest.
Je obtížné to nějak lépe zdokumentovat, protože prostým pozorováním děje
(smartctl -l selftest) děj výrazně ovlivňuji (viz postrkování).
Moc by mě zajímalo, jestli se někdo setkal s podobným chováním
S.M.A.R.T. self testů a má-li tušení, jak ten systém opravit tak, aby ty
testy na tom Seagatu opět probíhaly normálně.
Dodávám, že tu mám řadu jiných strojů v téměř stejných HW i SW
konfiguracích a takovýto problém s usínajícími S.M.A.R.T. testy jsem
nikde jinde nezaznamenal.
Díky
Petr
P.S. perlička: po jednom vypnutí/zapnutí stroje se ten Seagate už prostě
nepřihlásil na sběrnici, vypadá zcela elektronicky mrtvý, ale nahradil
jsem ho záložním diskem s jen nepatrně novějším firmware (3.AEK), který
se chová naprosto stejně problematicky.
Další informace o konferenci Linux