Heartbeat po chybe sluzby

Jan Kasprzak kas na fi.muni.cz
Pátek Září 5 11:47:23 CEST 2008


	Dobry den,

mam takovy problem s heartbeatem - mam dva servery, na nich mnoho
sluzeb (IP adresy, postfix, named, DRBD disky, ...) na dvou virtualnich
uzlech (dvou radcich v /etc/ha.d/haresources).

	Problem je, ze kdyz se neco pokazi - chyba v konfiguraci jedne
sluzby, ktera pak nenastartuje - tak v tom pripade heartbeat pro dany
virtualni uzel shodi i ty zdroje (IP adresy, sluzby) ktere se mu predtim
podarilo aktivovat. Vysledkem je, ze na celem klastru nebezi _nic_ z daneho
virtualniho uzlu.

	A ted nevim jak to rozumne resit. Prvni napad byl udelat pro kazdou
sluzbu samostatny radek v haresources. Tohle ale nefunguje, protoze 
zavislosti mezi temi sluzbami tam precejen jsou. Akorat to nejsou zavislosti
typu "kdyz nepobezi A, nesmi bezet ani B", ale spis "pro pokus o nastartovani
A je treba nejdriv nastartovat B na tomtez fyzickem uzlu".

	Priklad - skupina peti IP adres zavisi na Postfixu, protoze na tech
adresach chci mit aktivni SMTP. Ale je mensi zlo kdyz Postfix nepobezi nebo
bude poslouchat na ctyrech z peti adres, nez abych prisel o vsechny tyto
adresy, na nichz jeste ma bezet napriklad POP-3.

	Jde nejak heartbeatu vysvetlit, aby se snazil spoustet vsechny
sluzby budto "az po prvni chybu", nebo i "pokracovat po chybe"?
V podstate jedine co by HB mel hlidat je, aby na sobe zavisle sluzby
nebezely na ruznych fyzickych serverech a aby jedna sluzba nebezela zaroven
na vice fyzickych serverech.

	K tomu se pridava jeste problem, ze v logu heartbeatu vubec
neni dobre videt, kvuli cemu se vlastne rozhodl zacit virtualni uzel
zase zpatky deaktivovat (ted jsem se treba preklepl v jednom znaku IP
adresy, ktera tim padem nespadala do prefixu zadneho existujiciho rozhrani,
a kvuli tomu mi prestaly fungovat nejake dve desitky dalsich sluzeb
na asi osmi dalsich IP adresach :-(

	Diky,

-Y.

-- 
| Jan "Yenya" Kasprzak  <kas at {fi.muni.cz - work | yenya.net - private}> |
| GPG: ID 1024/D3498839      Fingerprint 0D99A7FB206605D7 8B35FCDE05B18A5E |
| http://www.fi.muni.cz/~kas/    Journal: http://www.fi.muni.cz/~kas/blog/ |
>>  If you find yourself arguing with Alan Cox, you’re _probably_ wrong.  <<
>>     --James Morris in "How and Why You Should Become a Kernel Hacker"  <<



Další informace o konferenci Linux