Podivne chovani Soft. RAIDU

Středa Červenec 18 06:52:10 CEST 2001

Zdravim,

> jste si jist, ze pred vami pozorovanym incidentem byl raid svazek
> plne funkcni? Napr. kontroloval jste pravidelne stav pole v /proc/mdstat?
> Vami popisovane chovani by taky mohlo byt zpusobene tim, ze jeden z disku
> byl kvuli chybe vyrazen pred 14 dny z pole (tedy na nem zustala data stara
> 14 dni), a pri manipulaci se strojem pak vypadnul kabel od disku ktery
> v poli zustal jako aktivni (s aktualnimi daty). Po startu stroje by pak
> system mel k dispozici pouze disk se starsi verzi dat (kde take mohly byt
> nekonzistence dat).
>
Hmm, tak na /proc/mdstat jsem uplne zapomnel. -- Hlasi mi to porad jen jeden 
disk v raidu. Budu muset zkontrolovat kabel a disk.

Mate pravdu disk vypadl.  IO error. -- Chyba mezi klavesnici a zidli, spravce 
neumi pravidelne cist. Budu si to muset nejak zautomatizovat. 

Clovek se pouci az ho system kopne do ...

>
> Neposkytnul jste dostatek informaci: konfigurace systemu, verze jadra,
> verze raidu, raidutils, zda pouzivate autodetekci poli nebo pole
> aktivujete pres raidstart, presne zneni chybovych hlaseni ..
>

Omlouvam se. Konfiguraci jsem zapomnel pridat.
Server - 
HP E60, 2x HP 9.1 GB SCSI, 1x 2GB IBM SCSI
RH 7.1
kernel - nyni 2.4.5 XFS -- v dobe situace 2.4.3-XFS
Filesystem - XFS 1.0.1
Samba 2.2.0 - chystam upgrade na 2.2.1a
RAID - 0.9.0
raidtools - 0.9.0
ke startu RAIDu pouzivam standartni script z RH 7.1

v messages mam hlasku - 
no spare disk to reconstruct array! - continuing in degraded mode

>
> pokud Vam to opravdu nedela mirroring, tak tam zrejme mate
> nakonfigurovane neco jineho nez raid1 - prilozte konfiguracni soubor
> /etc/raidtab, vypis /proc/mdstat ..
>

No, doufam, ze mirroring nastaveny mam. Teda pokud me pamet neklame a 
nezmenili RAID-level 1 na neco jineho. Ale radsi pripojuji ten soubor.

raidtab
--------------------------------
raiddev                  /dev/md0
raid-level               1
nr-raid-disks            2
nr-spare-disks           0
chunk-size               4

device                   /dev/sdb1
raid-disk                0

device                   /dev/sdc1
raid-disk                1

raiddev                  /dev/md1
raid-level               1
nr-raid-disks            2
nr-spare-disks           0
chunk-size               4

device                   /dev/sdb2
raid-disk                0

device                   /dev/sdc2
raid-disk                1
---------------------------------

/proc/mdstat
---------------------------------

Personalities : [raid1] 
read_ahead 1024 sectors
md1 : active raid1 scsi/host0/bus0/target2/lun0/part2[0]
      6931968 blocks [2/1] [U_]

md0 : active raid1 scsi/host0/bus0/target2/lun0/part1[0]
      1951744 blocks [2/1] [U_]

unused devices: <none>
----------------------------------

Pokud jsem spravne pochopil, z vypisu mdstat tak v raidu je jen jeden disk, 
budu muset zkontrolovat, co je s tim druhym. -- Jestli ohnute piny na 
konektoru nebo vadny disk.

I kdyz jadro disk najde.

dmesg - kraceny vypis
-----------------------------------

SCSI subsystem driver Revision: 1.00
ahc_pci:0:5:0: Using left over BIOS settings
ahc_pci:0:5:1: Using left over BIOS settings
scsi0 : Adaptec AIC7XXX EISA/VLB/PCI SCSI HBA DRIVER, Rev 6.1.13
        <Adaptec aic7895 Ultra SCSI adapter>
        aic7895C: Ultra Wide Channel A, SCSI Id=7, 32/255 SCBs

scsi1 : Adaptec AIC7XXX EISA/VLB/PCI SCSI HBA DRIVER, Rev 6.1.13
        <Adaptec aic7895 Ultra SCSI adapter>
        aic7895C: Ultra Wide Channel B, SCSI Id=7, 32/255 SCBs

  Vendor: IBM       Model: DCAS-32160W       Rev: S65A
  Type:   Direct-Access                      ANSI SCSI revision: 02
  Vendor: HP        Model: 9.10GB C 68-P84D  Rev: P84D
  Type:   Direct-Access                      ANSI SCSI revision: 02
  Vendor: HP        Model: 9.10GB C 68-P84D  Rev: P84D
  Type:   Direct-Access                      ANSI SCSI revision: 02
scsi0:0:1:0: Tagged Queuing enabled.  Depth 253
scsi0:0:2:0: Tagged Queuing enabled.  Depth 253
scsi0:0:4:0: Tagged Queuing enabled.  Depth 253
  Vendor: HP        Model: C1537A            Rev: L907
  Type:   Sequential-Access                  ANSI SCSI revision: 02
Detected scsi disk sda at scsi0, channel 0, id 1, lun 0
Detected scsi disk sdb at scsi0, channel 0, id 2, lun 0
Detected scsi disk sdc at scsi0, channel 0, id 4, lun 0
(scsi0:A:1): 11.626MB/s transfers (5.813MHz, offset 8, 16bit)
SCSI device sda: 4226725 512-byte hdwr sectors (2164 MB)
Partition check:
 /dev/scsi/host0/bus0/target1/lun0: p1 p2 < p5 p6 >
(scsi0:A:2): 6.600MB/s transfers (16bit)
SCSI device sdb: 17773524 512-byte hdwr sectors (9100 MB)
 /dev/scsi/host0/bus0/target2/lun0: p1 p2
(scsi0:A:4): 6.600MB/s transfers (16bit)
SCSI device sdc: 17773524 512-byte hdwr sectors (9100 MB)
 /dev/scsi/host0/bus0/target4/lun0: p1 p2
-----------------------------------

Mam dotaz.

Pochopil jsem to, co vylezlo z mdstat spravne?
Opravuje softwarovy RAID automaticky nebo je potreba pro opravu pouzit nejaky
specializovany nastroj? 
Pri hledani na webu jsem narazil na zminku o programu chkraid, ovsem jeho 
binarni podobu jsem nasel pouze pro S390. Pouzival jste ho nekdo?

Diky za odpovedi.

S pozdravem,

David Lukastik