sw RAID a spolehlivost
Dan Ohnesorg
Dan na feld.cvut.cz
Úterý Srpen 5 00:14:33 CEST 2008
Dne Mon, Aug 04, 2008 at 10:57:05PM +0200, Dalibor Straka napsal:
> On Mon, Aug 04, 2008 at 08:59:22PM +0200, Petr Simek wrote:
> > On Mon, 4 Aug 2008, Dalibor Straka wrote:
> >
> > >> Ja jsem s tim delal pokusy nez jsem to nasadil. Kdyz jsem vytrhl
> > >> zasynchronizovany disk tak vse OK. Kdyz jsem ho vratil zpet tak uz
> > >> to bylo slabsi - system si porad pamatoval puvodni disk (sda) a ten
> > >> znovu zastrceny (na stejne misto) oznacil jako sdc. Takze nasledoval
> > >> reboot a pak znovu nahozeni toho vytrzeneho disku do raidu. Coz trva
> > >> stejne dlouho jako pocatecni inicializace. Inicializace probiha
> > >> prekopirovanim vsech sektoru, nezalezi tedy na obsazeni daty, na
> > >> mnozstvi 'nesynchronizovanych' dat, ale pouze na velikosti partisny.
> > >>
> > > Upozornit raid, ze tento disk jiz v poli byl lze parametrem --re-add.
> >
> > A ten udela kompletni resync sektor po sektoru. Vyzkousejte si to.
> >
> Neudela, skutecne to mam odzkousene.
>
> man mdadm
>
> If an array is using a write-intent bitmap, then devices which have
> been removed can be re-added in a way that avoids a full
Jenze write-intent bitmap pouziva malokdo, protoze to dost silne zpomaluje
jakykoliv zapis. Ve vychozim stavu je to vypnute a rekonstrukce se dela
skutecne pres cely disk.
Co se tyce vytrzeni disku za chodu, to je klidne mozne, ale radic to musi
umet, zpravidla se to podari, kdyz ho mate v AHCI rezimu.
Z hlediska rychlosti rekonstrukce neni rozdil mezi tim, ze se disk vytrhne
za chodu a nebo failne pres mdadm. Ta noticka v navodu o remove znamena, ze
neni mozne pouzit softwarovy prikaz mdadm --remove na aktivni disk, s HW
vytrzenim disku nema co do cineni.
Co se tyce SATA ovladacu tak to je fakt traga, zrovna dneska rano jsem
resetoval masinu, ktera na ICH9 intelskem radici prisla o disk a misto aby
ho raid ciste vykopl a jel dal, tak stale dokola opakoval cteni a logoval
media error, takze stroj byt absolutne tuhy a neslo se ani nalogovat. Po
resetu se rozmyslel, ze by mohl pouzit ten druhy a uz bezel v pohode, takze
jsem mu pres mdadm --fail a mdadm --remove zlikvidoval pole, ktera nebyla
postizena chybou media a jde na reklamaci. Soucasne je to pekna ukazka
kecani SMARTu, protoze ten o disku s temito vysledky:
1 Raw_Read_Error_Rate 0x000f 104 090 006 Pre-fail Always - 6422180
7 Seek_Error_Rate 0x000f 086 060 030 Pre-fail Always - 434323806
195 Hardware_ECC_Recovered 0x001a 069 060 000 Old_age Always - 161766808
rika ze je zdravy.
zdravim
dan
Další informace o konferenci Linux