Heartbeat po chybe sluzby
Jan Kasprzak
kas na fi.muni.cz
Pátek Září 5 11:47:23 CEST 2008
Dobry den,
mam takovy problem s heartbeatem - mam dva servery, na nich mnoho
sluzeb (IP adresy, postfix, named, DRBD disky, ...) na dvou virtualnich
uzlech (dvou radcich v /etc/ha.d/haresources).
Problem je, ze kdyz se neco pokazi - chyba v konfiguraci jedne
sluzby, ktera pak nenastartuje - tak v tom pripade heartbeat pro dany
virtualni uzel shodi i ty zdroje (IP adresy, sluzby) ktere se mu predtim
podarilo aktivovat. Vysledkem je, ze na celem klastru nebezi _nic_ z daneho
virtualniho uzlu.
A ted nevim jak to rozumne resit. Prvni napad byl udelat pro kazdou
sluzbu samostatny radek v haresources. Tohle ale nefunguje, protoze
zavislosti mezi temi sluzbami tam precejen jsou. Akorat to nejsou zavislosti
typu "kdyz nepobezi A, nesmi bezet ani B", ale spis "pro pokus o nastartovani
A je treba nejdriv nastartovat B na tomtez fyzickem uzlu".
Priklad - skupina peti IP adres zavisi na Postfixu, protoze na tech
adresach chci mit aktivni SMTP. Ale je mensi zlo kdyz Postfix nepobezi nebo
bude poslouchat na ctyrech z peti adres, nez abych prisel o vsechny tyto
adresy, na nichz jeste ma bezet napriklad POP-3.
Jde nejak heartbeatu vysvetlit, aby se snazil spoustet vsechny
sluzby budto "az po prvni chybu", nebo i "pokracovat po chybe"?
V podstate jedine co by HB mel hlidat je, aby na sobe zavisle sluzby
nebezely na ruznych fyzickych serverech a aby jedna sluzba nebezela zaroven
na vice fyzickych serverech.
K tomu se pridava jeste problem, ze v logu heartbeatu vubec
neni dobre videt, kvuli cemu se vlastne rozhodl zacit virtualni uzel
zase zpatky deaktivovat (ted jsem se treba preklepl v jednom znaku IP
adresy, ktera tim padem nespadala do prefixu zadneho existujiciho rozhrani,
a kvuli tomu mi prestaly fungovat nejake dve desitky dalsich sluzeb
na asi osmi dalsich IP adresach :-(
Diky,
-Y.
--
| Jan "Yenya" Kasprzak <kas at {fi.muni.cz - work | yenya.net - private}> |
| GPG: ID 1024/D3498839 Fingerprint 0D99A7FB206605D7 8B35FCDE05B18A5E |
| http://www.fi.muni.cz/~kas/ Journal: http://www.fi.muni.cz/~kas/blog/ |
>> If you find yourself arguing with Alan Cox, you’re _probably_ wrong. <<
>> --James Morris in "How and Why You Should Become a Kernel Hacker" <<
Další informace o konferenci Linux