OT: LDAP backend
Jaroslav Prodelal
ogee na oldany.cz
Pondělí Srpen 15 02:12:19 CEST 2005
Dobry den,
vracim se k problemu, ktery jsem zde uvadel. Problem se bohuzel
opakoval. Nevim, cim to muze byt, ale zase se databaze nejak pokazila.
> Nelze jen tak jednoznacne rict, jestli chyba byla byla v db backendu a
> jestli by jeho vymena neco resila. Klidne take mohl zazmatkovat hardware
> (mate ECC RAM? pripadne neco lepsiho?).
Ano, ECC pameti v serveru jsou. Dokonce na RAC (Remote access card - je
to DELL PE 2850) jsem nasel hlasky o ECC Correction... Nezapadalo to
kazdopadne ale do inkriminovane doby a pamet jsem tedy nechal vymenit,
ovsem problem hlasi znovu a to za dnesek 23x. :-(
> Ono neni od veci nejakym zpusobem proverit, jestli jsou zalohovana data
> pouzitelna. Tedy napr. zkontrolovat, zda jsou db soubory v konzistentnim
> stavu pomoci db_verify. Nebo obcas provadet db_checkpoint. Nebo zalohovat
> pomoci db_dump apod.
Po tom prvnim problemu jsem dal do cronu kazdou hodiny dela db_verify na
vsechny *.bdb soubory v danem adresari.
Jak jsem ale rekl, db_verify kazdou hodinu a stejne se to najednou zase
cele pokazilo. Nastesti jsem u toho opet sedel, jal jsem se tedy jiz
zkusenejsi z prechozi doby problem opravit. Bohuzel
db_recover
ani
db_recover -c
ani
db_recover -c -t <nejake pouzitelne datum po kazdodenni zaloze>
se nepodarilo data obnovit.
Takze tam musel jit slapcat ze zalohy. Po tomto problemu uz delam
slapcat kazdou hodinu + db_checkpoint kazdou hodinu. Ted uz jenom cekam,
kdy se to zase sesype. Ja ale nechapu, jak se to muze takhle brutalne
pokazit, kdyz porad dobry, dobry a najednou buch a mega problem...
Kazdopadne ten transakcni log je opravdu divny, ze se takhle uplne
pokazi a nejde to vubec obnovit. Nejvetsi problem je v tom, ze je sice
fajn, ze mam zalohu, ale kdybych u toho nesedel, tak mi to bude trvat
treba jeste o hodinu, dve dele a to uz by zakaznici asi neustali.
Neda se nejak kontrolovat i ten transakcni log?
Repliku nemam, ale predpokladam, ze stejne kdyz se poskodi primarni
databaze, ze ten primarni slapd prestane fungovat a nepomuze ani
replika. Resp. kdyz ho restartuji nenastartuje a tim je mi na nic i
replika. Uvazuji spravne?
Dekuji moc za vase podnety!
--ogee
Další informace o konferenci Linux