sw RAID a spolehlivost

Michal Dobes dobes na tes.eu
Pondělí Srpen 4 15:52:56 CEST 2008


plocek.martin na centrum.cz napsal(a):
> mel bych par takovych otazecek ohledne "spolehlivosti" SW RAID 1 pod
> linuxem.
> 
> Pred casem se mi dostal do rukou jakysi Compaq se dvema SCSI hot-swap
> disky. Nainstaloval jsem na nej distr. Debian Etch a disky jsem dal do
> rezimu RAID 1 (Mirroring). Nad timto RAIDem jsem pak vytvoril pouze
> korenovy oddil (s ext3) a swap.
> 
> Po instalaci a naslednem restartu jsem si rekl "tak, a nasimulujeme si
> vypadecek" a jeden ten disk jsem zaziva vytahnul. A najednou mi zmizel
> adresar /usr (resp. zacal se spis tvarit, jako by byl neplatnym
> odkazem) a na terminalu se mi zacali objevovat vselijake takove
> nepekne hlasky. System samotny se nekousl, ale bliz jsem to tehdy
> bohuzel nezkoumal.

Hot swap disk ještě neznamená, že jej můžu kdykoliv beztrestně vyrvat
ze systému a ono to spokojeně poběží dál. Občas je třeba udělat i nějaký
doprovodný krok, aby to sebrání bylo korektní.
On se s tím musí vypořádat třeba vlastní řadič. A v poslední době
u levnějších strojů je nějak oblíbené, že máte sice disky v hot swap
rámečkách, ale vlastní řadič plně to podporující je až za příplatek
a pak to občas dopadá tak, jak popisujete.
Navíc provedený test není úplně korektní. V daném zapojení je ten RAID1
v režimu mirroringu, který vás chrání před selháním povrchu jednoho
disku, ale nechrání spolehlivě před selháním disku jako celku.
Třeba stačí, aby chcípla elektronika disku tak, že na sdílenou sběrnici
posílala bordel a máte smůlu. Pokud se bojíte tohoto případu, pak je
třeba duplexing, kdy máte pro každý disk samostantou sběrnici a řadič.
Ale ani toto v případě SW RAID1 nebude na 100%, bude záležet na tom,
jak je napsán ovladač toho řadiče. SW RAID vadu disku pozná podle
toho, že driver zařízení mu vrátí na operaci čtení/zápis chybu,
pokud mu ji nevrátí a snaží se donekonečna číst/zapisovat data,
tak na to SW RAID vrstva nepřijde. A bohužel se tak pár driverů řadičů
chová, že když disk přestane úplně bez varování odpovídat, tak místo
vrácení chyby po pár pokusech se donekonečna o něco snaží a pak SW
RAID ten disk nevyhodí a sám na tom vytuhne, protože čeká na dokončení
operace na jednotlivých zařízeních tvořících RAID.

M.




Další informace o konferenci Linux