Jak monitorujete vetsi mnozstvi stroju?
Jan Kasprzak
kas na fi.muni.cz
Středa Červenec 25 13:16:38 CEST 2007
Zdravim,
mam koncepcni :-) problem, jak snizit vseobecny chaos v monitorovani
dostupnosti a funkcnosti stroju. Jde o to, ze mam spousty ruznych serveru
velmi ruzne konfigurace, zateze, hardwaru, atd. A potreboval bych nejak
sledovat jejich "zdravi", coz je problematicke:
- Kazdy takovy stroj ma strasne moc veci, ktere o sobe umi rict,
ale kazdy ma jine takove veci (napriklad nekde neni podporovany
senzorovy cip pro teplotu a otacky vetraku, nekde je vic
procesoru a vic vetraku, disky s teplotnim cidlem nebo bez, atd).
- nektere veliciny (teploty, otacky, atd.) by v pripade problemu bylo
pekne videt i jako graf (jakoze: zvedla se teplota dnes rano
u vsech serveru? -> problem klimatizace). U nekterych to ale
nema moc smysl (dostupnost na ping, vyskyt SMART chyby, atd.).
- bylo by pekne, aby stroj sam o sobe vedel (lepe: umel najit), co ma
monitorovat. Abych nemel situaci, kdy v centralnim Nagiosu
mam definovane sledovani mista na disku, a kdyz nekdo prida
dalsi disk (nebo nahradi stavajici vetsim), aby se nezapomnelo
upravit i konfiguraci Nagiosu. Podobne s poctem vetraku,
sitovych karet a podobne.
- totez ohledne bezicich procesu: je v init-skriptech zapnute spousteni
Apache? Pak je problem pokud prave Apache nebezi.
- bylo by dobre, aby stroj sam umel rict (i dynamicky upravovat?), jake jsou
"rozumne" hodnoty. Abych nemusel stravit den zjistenim, v jakych
rozmezich se tak pohybuji teploty a otacky regulovaneho vetraku,
a pak teprve nastavoval pro kazdy vetrak zvlast rucne limity.
Podobne u zateze CPU: nektere stroje bezi trvale s loadem > 3
nebo s CPU na 100%, zatimco u jinych CPU na 100% po dobu rekneme
vetsi nez hodinu znamena zacykleny proces.
- nektere veci nejdou zjistit rozumne rychle (SMART stav disku napriklad),
cili by bylo dobre je sledovat sam, a az se monitorovaci stanice
zepta, tak uz jen rict prednactenou hodnotu).
- nektere stavy je treba hlasit co nejrychleji (zaplneni swapu vzrostlo
za posledni minutu na dvojnasobek a za dve minuty dojde pamet
- tady nejde cekat, az se monitorovaci stanice znovu zepta).
- u nekterych zarizeni nejde na strane zarizeni poustet samostatne programy
(treba switche nebo bezdratove AP) - takze tam by si monitorovaci
stanice mela umet sama osahat, co tak zarizeni umi, a co by se tak
dalo monitorovat.
Finalni dotaz je asi jasny: existuje nejaky hotovy uceleny system,
ktery by tohle splnoval? Prgram-agent na serveru a monitorovaci nastroj
na monitorovaci stanici, ktery by se podle toho co agenti umi sam konfiguroval.
Pokud ne, nad cim byste neco takoveho implementovali?
Zatim mi to vychazi na SNMP jako transportni protokol, asi Nagios a MRTG
na strane monitorovaci stanice, a spousta Perlu (a mozna m4) na generovani
konfiguraci pro Nagios a MRTG. Moc se mi do toho nechce :-).
Diky,
-Y.
--
| Jan "Yenya" Kasprzak <kas at {fi.muni.cz - work | yenya.net - private}> |
| GPG: ID 1024/D3498839 Fingerprint 0D99A7FB206605D7 8B35FCDE05B18A5E |
| http://www.fi.muni.cz/~kas/ Journal: http://www.fi.muni.cz/~kas/blog/ |
# Apple could probably launch a $600 phone with virtually no 3rd party
# apps and that can't even send pictures in text messages and people
# would probably buy it. (-- from /.)
Další informace o konferenci Linux