Přisekávající se server

Hodek Tomáš tomas.hodek na volny.cz
Pondělí Listopad 30 20:44:14 CET 2009


Dobrý den,

mám podobnou zkušenost, dva disky v raid0 a když se mi disky poškodili, 
tak mi to četlo bez problémů. Jak k poškození došlo nevím, ale oba dva 
sata disky (500GB) měli vždy po velmi podobném intervalu nečitelné 
sektory. Naštěstí byl mezi nimi jistý posun. Pole se nechalo bez jediné 
stížnosti sestavit (samo se sestavilo i při bootu) a odzálohovat. V logu 
se objevily chyby čtení pouze tehdy, pokud jsem se pokusil číst disky 
bez pole.

Po odzálohování jsem se snažil různými uživatelskými způsoby donutit 
jádro, aby mi pole rozbilo, nikdy se mi to nepovedlo a /proc/mdstat 
tvrdil že je pole OK.

Vzhledem k tomu, že se úplně stejně chovají i Windows, možná je to nový 
způsob práce SW raidů.

Co to bylo za jádro nevím - výchozí z Opensuse 11.0. Po druhém stejném 
poškození nových disků jsem odstavil celou osazenou desku i zdroj. (vše 
bylo za UPS).

Kdysi na jádrech 2.4 se mi takto nešťastně pole nechovala.

V prvním kole bych zkusil samostatné disky přečíst (např přes dd) a 
porovnat  smart statistiky před a po.
 
Hodek



Petr Baláš napsal(a):
> Jeste jeden zajimavy poznatek:
>
> root na linux:~# time smartctl -H /dev/sda
> smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
> Home page is http://smartmontools.sourceforge.net/
>
> === START OF READ SMART DATA SECTION ===
> SMART overall-health self-assessment test result: PASSED
>
>
> real    0m0.158s
> user    0m0.008s
> sys     0m0.000s
>
> ------------------------------------------------------------------------------------------------
>
> root na linux:~# time smartctl -H /dev/sdb
> smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
> Home page is http://smartmontools.sourceforge.net/
>
> === START OF READ SMART DATA SECTION ===
> SMART overall-health self-assessment test result: PASSED
>
>
> real    3m1.042s
> user    0m0.008s
> sys     0m0.000s
>
> ------------------------------------------------------------------------------------------------
>
> BTW nemel by byt na komunikaci s diskem nejaky timeout a pak
> ohlasit chybu?
> Aneb - kam mam nahlasit problem?
>
> Zitra zkusim utrhnout disk sdb a poreferuji jak jsem dopadl.
>
> Kernel 2.6.31.6 vanilka
>
>
>   



Další informace o konferenci Linux