Centos5 - mismatch_cnt neni 0 na RAID5

Petr Simek psimek na jcu.cz
Neděle Březen 17 20:25:44 CET 2013


On Sun, 17 Mar 2013, Pavel Kankovsky wrote:

> Už jsem psal dvě možnosti: SystemTap-em přidat zalogování čísla bloku do 
> místa, kde se zvětšuje čítač (samozřejmě by šlo i přímo upravit jádro, ale to 
> je už je pro větší drsňáky) nebo to zkontroloval z userlandu (vyrobit 
> program, který přečte odpovídající bloky ze všech fyzických zařízení, spočítá 
> xor a nahlásí místa, kde nevyjde nula).
>
> Až zjistíte nějaké číslo bloku -- u RAID5 spíš čísla několika bloků, protože 
> víte, že nesedí parita, ale není jasné, který ze zůčastněných to zavinil -- 
> na fyzických zařízeních, tak to bude postupně potřeba převést zpátky na číslo 
> bloku v RAIDu, číslo bloku v LV (je-li nad tím RAIDem LVM) a postižený objekt 
> v souborovém systému (je-li na příslušném místě souborový systém). Upřímně 
> řečeno by bylo hezké, kdyby na to byl nějaký nástroj; lze to sice udělat 
> ručně a párkrát jsem to už udělal, ale je to dost otrava.

No diky za navedeni , ale nejak se mi do toho nechce. Ale to pocitani toho 
xor by to melo odhalit - tedy pokud ten raid5 pouziva schema ze sektory
stejneho logickeho cisla na fd partisnach patri k sobe .

>> Jeste dalsi poznatek - kdyz tam neco zapisu tak se to cislo zvysuje. Po 
>> rebootu stroje je nula.
>
> Zvyšuje se to okamžitě po zápisu nebo až s nějakým zpožděním? Odpovídá 
> zvýšení čítače záznam v logu (md: syncing RAID array mdX)? Na RHEL/CentOSu se 
> každý týden (typicky v neděli brzo ráno) automaticky spouští kontrola.

Provadim zapis asi 130GB a to cislo mismatch_cnt se behem te doby zvetsi
o 408 . V logu v te dobe od md neni zadny zaznam. Pak je tam zaznam ve
4:22 ze spousti synchronizaci md1 (swap) a md3 - ten raid5 filesystem.
Ale to je o toho cronjobu. Zajimave ze po te sync akci na md1 zadne takove
bloky nejsou ale na md3 (raid5) jich zustane stejne - presto ze v te dobe
uz zadny zapis dat neprobiha. Take je divne ze ty repair a check prikazy
nijak to cislo v mismatch_cnt neovlivni i kdyz to po nich resync raidu
provadi.

>> Nicmene zapsana data se tvari ze jsou OK.
>
> To může znamenat, že je špatně jen parita a ne data (a vada se projeví jen v 
> případě výpadku disku a pokusu data rekonstruovat z parity), nebo také to, že 
> se chyba objevila v nějakém místě, kam se zapisovalo jen dočasně (žurnál?).

No to je zajimave vysvetleni - asi se s nim spokojim :-)


> Pavel Kankovsky aka Peak                          / Jeremiah 9:21        \

*------------------------------------------------------------------------*
|                          Petr Simek   APS JU                           |
|                             psimek na jcu.cz                              |
*------------------------------------------------------------------------*


Další informace o konferenci Linux