Jak monitorujete vetsi mnozstvi stroju?

Středa Červenec 25 13:16:38 CEST 2007

	Zdravim,

mam koncepcni :-) problem, jak snizit vseobecny chaos v monitorovani
dostupnosti a funkcnosti stroju. Jde o to, ze mam spousty ruznych serveru
velmi ruzne konfigurace, zateze, hardwaru, atd. A potreboval bych nejak
sledovat jejich "zdravi", coz je problematicke:

- Kazdy takovy stroj ma strasne moc veci, ktere o sobe umi rict,
	ale kazdy ma jine takove veci (napriklad nekde neni podporovany
	senzorovy cip pro teplotu a otacky vetraku, nekde je vic
	procesoru a vic vetraku, disky s teplotnim cidlem nebo bez, atd).
- nektere veliciny (teploty, otacky, atd.) by v pripade problemu bylo
	pekne videt i jako graf (jakoze: zvedla se teplota dnes rano
	u vsech serveru? -> problem klimatizace). U nekterych to ale
	nema moc smysl (dostupnost na ping, vyskyt SMART chyby, atd.).
- bylo by pekne, aby stroj sam o sobe vedel (lepe: umel najit), co ma
	monitorovat. Abych nemel situaci, kdy v centralnim Nagiosu
	mam definovane sledovani mista na disku, a kdyz nekdo prida
	dalsi disk (nebo nahradi stavajici vetsim), aby se nezapomnelo
	upravit i konfiguraci Nagiosu. Podobne s poctem vetraku,
	sitovych karet a podobne.
- totez ohledne bezicich procesu: je v init-skriptech zapnute spousteni
	Apache? Pak je problem pokud prave Apache nebezi.
- bylo by dobre, aby stroj sam umel rict (i dynamicky upravovat?), jake jsou
	"rozumne" hodnoty.  Abych nemusel stravit den zjistenim, v jakych
	rozmezich se tak pohybuji teploty a otacky regulovaneho vetraku,
	a pak teprve nastavoval pro kazdy vetrak zvlast rucne limity.
	Podobne u zateze CPU: nektere stroje bezi trvale s loadem > 3
	nebo s CPU na 100%, zatimco u jinych CPU na 100% po dobu rekneme
	vetsi nez hodinu znamena zacykleny proces.
- nektere veci nejdou zjistit rozumne rychle (SMART stav disku napriklad),
	cili by bylo dobre je sledovat sam, a az se monitorovaci stanice
	zepta, tak uz jen rict prednactenou hodnotu).
- nektere stavy je treba hlasit co nejrychleji (zaplneni swapu vzrostlo
	za posledni minutu na dvojnasobek a za dve minuty dojde pamet
	- tady nejde cekat, az se monitorovaci stanice znovu zepta).
- u nekterych zarizeni nejde na strane zarizeni poustet samostatne programy
	(treba switche nebo bezdratove AP) - takze tam by si monitorovaci
	stanice mela umet sama osahat, co tak zarizeni umi, a co by se tak
	dalo monitorovat.

	Finalni dotaz je asi jasny: existuje nejaky hotovy uceleny system,
ktery by tohle splnoval? Prgram-agent na serveru a monitorovaci nastroj
na monitorovaci stanici, ktery by se podle toho co agenti umi sam konfiguroval.

	Pokud ne, nad cim byste neco takoveho implementovali?
Zatim mi to vychazi na SNMP jako transportni protokol, asi Nagios a MRTG
na strane monitorovaci stanice, a spousta Perlu (a mozna m4) na generovani
konfiguraci pro Nagios a MRTG. Moc se mi do toho nechce :-).

	Diky,

-Y.

-- 
| Jan "Yenya" Kasprzak  <kas at {fi.muni.cz - work | yenya.net - private}> |
| GPG: ID 1024/D3498839      Fingerprint 0D99A7FB206605D7 8B35FCDE05B18A5E |
| http://www.fi.muni.cz/~kas/    Journal: http://www.fi.muni.cz/~kas/blog/ |
# Apple could probably launch a $600 phone with virtually no 3rd party
# apps and that can't even send pictures in text messages and people
# would probably buy it. (-- from /.)