Skutecne hardwarovy RAID

Dan Ohnesorg Dan na feld.cvut.cz
Středa Únor 2 10:25:52 CET 2005


Dne Wed, Feb 02, 2005 at 10:03:15AM +0100, Ing. Pavel PaJaSoft Janoušek napsal:

> a) proč by při běžném provozu a za rozumného uspořádání odešly 2 disky
> současně?... - nebo že by někdo nehlídal, že pole už dávno běží v
> degradovaném režimu? (jsem schopen připustit, že mi odejdou v mašině na sólo
> kanálech dva disky současně, zajímalo by mne však, kolik lidí někdy něco
> takového zažilo v praxi = jak je to pravděpodobné)

Ja jsem to zazil nekolikrat. Jednou nam z 9 disku odesly 3. Vzdycky k tomu
doslo pri rebootu masiny. Disky bezely bez toho aby kdokoliv a cokoliv reklo
pip a kdyz byl potreba restart kvuli upgrade jadra, tak system skoncil v
BIOSu na hlasce radice (HW radid) nebo jadro v panice  pri sestavovani poli
(sw raid).

Dneska kdyz se vyrabi disky, tak jsou mezi nimi tak minimalni rozdily, ze ty
co maji seriova cisla po sobe nebo sla ve stejnem baliku (se ktery nekdo
mlatil stejnym zpusobem) odejdou plus minus den.

Nicmene uz jsem jednou zachranil temer vsechna data z soft raidu, kde scenar
havarie byl nasledujici. RAID5 ze tri disku. Odchazi disk - DMA timeout,
vymenuje se za novy a spousti se rebuild pole, podle /proc/mdstat to ma
trvat asi 10 hodin, takze vsichni jdou spokojene domu. Rano ale masina lezi,
rebuild nedobehl, novy disk neni k potrebe, jeden ze starych se vubec nedari
roztocit.

Pomoci nejakeho norton cosi je udelana kopie toho disku co hlasi DMA
timeout na ten novy (dd_rescue to nezvladalo), skladam pole - nejde, disky
nemaji stejne stavy pocitadel udalosti, takze to skladam znovu s --force,
xfs_recover, odsunuti dat jinam, nova inicializace pole, data soupnot zpet a
happy end. Tohle s disky na adaptecu nebo jinem HW raidu nikdy neudelate.

> b) u takových sluižeb je snad v poli minimálně jeden spare disk...(pokud ne,
> je to skutečně amatérismus)

Nikdo presne nevi jak to tam vypadalo pripadne jak do toho kdo za behu
stoural. Pronikaji nejake signaly ze tam momentalne vubec nemaji zadneho
systemaka. Takze pole mohlo byt degradovane a nikdo to treba neresil.

> c) nedávno, tuším, že na cdr.cz probíhal test disků... kupodivu byly disky,
> které v kombinaci s přesně určenými řadiči odcházely do věčných lovišť,
> zatímco s jinými podávali odpovídající výkony (což může a nemusí být řadičem
> - záleži zda-li se všichni drží specifikace a povolených tolerancí)

Jo to me taky dost sokovalo.

zdravim
dan


Další informace o konferenci Linux