OT: LDAP backend

Jaroslav Prodelal ogee na oldany.cz
Pondělí Srpen 15 02:12:19 CEST 2005


Dobry den,

   vracim se k problemu, ktery jsem zde uvadel. Problem se bohuzel
opakoval. Nevim, cim to muze byt, ale zase se databaze nejak pokazila.

> Nelze jen tak jednoznacne rict, jestli chyba byla byla v db backendu a 
> jestli by jeho vymena neco resila. Klidne take mohl zazmatkovat hardware 
> (mate ECC RAM? pripadne neco lepsiho?).
Ano, ECC pameti v serveru jsou. Dokonce na RAC (Remote access card - je
to DELL PE 2850) jsem nasel hlasky o ECC Correction... Nezapadalo to
kazdopadne ale do inkriminovane doby a pamet jsem tedy nechal vymenit,
ovsem problem hlasi znovu a to za dnesek 23x. :-(

> Ono neni od veci nejakym zpusobem proverit, jestli jsou zalohovana data
> pouzitelna. Tedy napr. zkontrolovat, zda jsou db soubory v konzistentnim 
> stavu pomoci db_verify. Nebo obcas provadet db_checkpoint. Nebo zalohovat 
> pomoci db_dump apod.
Po tom prvnim problemu jsem dal do cronu kazdou hodiny dela db_verify na
vsechny *.bdb soubory v danem adresari.


Jak jsem ale rekl, db_verify kazdou hodinu a stejne se to najednou zase
cele pokazilo. Nastesti jsem u toho opet sedel, jal jsem se tedy jiz
zkusenejsi z prechozi doby problem opravit. Bohuzel

db_recover
	ani
db_recover -c
	ani
db_recover -c -t <nejake pouzitelne datum po kazdodenni zaloze>

se nepodarilo data obnovit.

Takze tam musel jit slapcat ze zalohy. Po tomto problemu uz delam
slapcat kazdou hodinu + db_checkpoint kazdou hodinu. Ted uz jenom cekam,
kdy se to zase sesype. Ja ale nechapu, jak se to muze takhle brutalne
pokazit, kdyz porad dobry, dobry a najednou buch a mega problem...

Kazdopadne ten transakcni log je opravdu divny, ze se takhle uplne
pokazi a nejde to vubec obnovit. Nejvetsi problem je v tom, ze je sice
fajn, ze mam zalohu, ale kdybych u toho nesedel, tak mi to bude trvat
treba jeste o hodinu, dve dele a to uz by zakaznici asi neustali.

Neda se nejak kontrolovat i ten transakcni log?

Repliku nemam, ale predpokladam, ze stejne kdyz se poskodi primarni
databaze, ze ten primarni slapd prestane fungovat a nepomuze ani
replika. Resp. kdyz ho restartuji nenastartuje a tim je mi na nic i
replika. Uvazuji spravne?

   Dekuji moc za vase podnety!

--ogee


Další informace o konferenci Linux