podivný problém, nevidím některé soubory na filesystému: SW raid

Pavel Lisy pali na tmapy.cz
Čtvrtek Červen 14 10:23:05 CEST 2012


Pavel Lisy píše v St 06. 06. 2012 v 08:49 +0200:
> Pavel Kankovsky píše v Po 04. 06. 2012 v 00:31 +0200:
> > On Sun, 3 Jun 2012, Pavel Lisy wrote:
> > 
> > > df dokonce zobrazuje pod různými OS na stejném filesystému různě
> > > obsazený prostor
> > 
> > To je opravdu hodně zvláštní, protože volné místo je údaj uložený
> > v superbloku. Zkuste porovnat výstup dumpe2fs -h na příslušný svazek.
> 
> Tak jsem našel příčinu,
> 
> pod tím LVM je SW raid1, který se rozpadl tím způsobem, že:
> ve Fedoře 15 vypadl /dev/sda7 
> -----------------------------
> /dev/md6:
>         Version : 1.0
>   Creation Time : Thu Jun 30 19:26:46 2011
>      Raid Level : raid1
>      Array Size : 671546096 (640.44 GiB 687.66 GB)
>   Used Dev Size : 671546096 (640.44 GiB 687.66 GB)
>    Raid Devices : 2
>   Total Devices : 1
>     Persistence : Superblock is persistent
> 
>     Update Time : Tue Jun  5 21:07:11 2012
>           State : clean, degraded
>  Active Devices : 1
> Working Devices : 1
>  Failed Devices : 0
>   Spare Devices : 0
> 
>            Name : pali-home.lisilan.cz:6  (local to host pali-home.lisilan.cz)
>            UUID : 81c7fdad:58c56b39:08fbc9e8:fad98ae8
>          Events : 114565
> 
>     Number   Major   Minor   RaidDevice State
>        0       0        0        0      removed
>        1       8       23        1      active sync   /dev/sdb7
> ------------------------------
> ve Fedoře 17 vypadl /dev/sdb7 
> ------------------------------
> /dev/md6:
>         Version : 1.0
>   Creation Time : Thu Jun 30 19:26:46 2011
>      Raid Level : raid1
>      Array Size : 671546096 (640.44 GiB 687.66 GB)
>   Used Dev Size : 671546096 (640.44 GiB 687.66 GB)
>    Raid Devices : 2
>   Total Devices : 1
>     Persistence : Superblock is persistent
> 
>     Update Time : Tue Jun  5 22:38:46 2012
>           State : clean, degraded
>  Active Devices : 1
> Working Devices : 1
>  Failed Devices : 0
>   Spare Devices : 0
> 
>            Name : pali-home.lisilan.cz:6  (local to host pali-home.lisilan.cz)
>            UUID : 81c7fdad:58c56b39:08fbc9e8:fad98ae8
>          Events : 72339
> 
>     Number   Major   Minor   RaidDevice State
>        2       8        7        0      active sync   /dev/sda7
>        1       0        0        1      removed
> ------------------------------
> 
> Pokud si vzpomínám, už jsem na rozpadlý raid v poslední době jednou
> narazil, ale bohužel jsem si nevšiml, že je to v každém systému jinak.
> Při mdadm --manage /dev/md6 --add /dev/sda7 to protestovalo, že jsou oba
> superbloky aktivní (nebo tak nějak), ale nebral jsem to úplně vážně,
> resp. nechtělo se mi to zkoumat, tak jsem o nějaká data přišel.
> 
> Mám tam rozpadlý ještě jeden oddíl (/dev/md1), ale tam v obou systémech
> vypadl stejný oddíl (/dev/sda3)
> 
> Jak může vůbec k takové situaci docházet? Je to nestabilním HW? Někdy se
> mi podaří nastartovat PC až na 2-3 pokus, protože se normálně rozběhne a
> pak zase vypne (někdy už před biosem jindy uprostřed bootu).

Přestože je HW opravdu trochu nestabilní, tak to vypadá, že hlavní
problém je na úrovni OS. Fedora má v nejnovějších verzích (16/17 ale
možná i 15) problém s inicializací sw raidu při bootu. V bugzille:
https://bugzilla.redhat.com/show_bug.cgi?id=808774#c3

je odkaz na diskuzi ve fedora mail listu, kde je to popsáno:

According to 16.2.2012 "F16 occasionally breaks RAID1 (md) on boot"
thread from Fedora mailing list, Sam Varshavchik state that
"mdraid_start" routine in initramfs is not reliable. And as workaround
is put "rd.md.uuid=RAID_UUID" for all RAID1 md device and let initialize
them by kernel. It seems woked fine for me too.

Zkusil jsem to tedy nastavit a uvidíme, jestli to bude stabilní.

Až to otestuje čas, dám sem info, kdyby to někoho v budoucnu také
trápilo.

Pavel
-- 
Pavel Lisy <pali na tmapy.cz>
T-MAPY spol. s r.o.



Další informace o konferenci Linux