check_ganglia_metric är en Nagios plugin som gör att du kan utlösa larm på någon Ganglia metriska.
check_ganglia_metric var starkt inspirerad av Vladimir Vuksan s check_ganglia_metric.php, men det kommer med en rad förbättringar.
Installation
# PiP installera check_ganglia_metric
... Eller:
# Easy_install check_ganglia_metric
Ganglia Konfiguration
Om inte din Nagios server och Ganglia Meta Daemon körs på samma värd, behöver du antagligen att redigera din gmetad.conf att tillåta fjärranslutningar från din Nagios servern.
För att tillåta anslutningar från nagios-server.example.com:
trusted_hosts nagios-server.example.com
För att tillåta anslutningar från alla värdar (förmodligen en säkerhetsrisk):
all_trusted på
Test på kommandoraden
Låt oss först se om check_ganglia_metric kan kommunicera med Ganglia Meta Daemon:
check_ganglia_metric.py --gmetad_host = gmetad-server.example.com
& Nbsp; - metric_host = host.example.com --metric_name = cpu_idle
Status Ok, CPU Idle = 99,3% | cpu_idle = 99,3% ;;;;
"Status OK" meddelande anger att check_ganglia_metric fungerar. Om du har problem med att få detta att fungera, försök igen med detaljerad loggning aktiverad (--verbose) för att få en bättre inblick i vad som händer fel.
Nu ska försöka ställa ett tröskelvärde:
check_ganglia_metric.py --gmetad_host = gmetad-server.example.com
& Nbsp; - metric_host = host.example.com --metric_name = cpu_idle --critical = 99
Status Kritisk, CPU Idle = 99,6% | cpu_idle = 99,6% ;; 99 ;;
Vi berättade check_ganglia_metric att returnera en "kritisk" status om Idle processorn var större än 99. "Status Critical" meddelande anger att det fungerade. Observera att check_ganglia_metric tolkar intervall och tröskelvärden enligt den officiella Nagios riktlinjer plugin utveckling.
För att se en komplett lista över kommandoradsväljare med korta förklaringar, köra check_ganglia_metric med --help alternativet.
Nagios Konfiguration
Skapa först en definition kommando:
definiera kommandot {
& Nbsp; command_name check_ganglia_metric
& Nbsp; command_line /usr/bin/check_ganglia_metric.py --gmetad_host = gmetad-server.example.com --metric_host = $ HOSTADDRESS $ --metric_name = $ ARG1 $ --warning = $ ARG2 $ --critical = $ ARG3 $
}
Nu kan du använda kommandot ovan i dina servicedefinitioner:
definiera tjänsten {
& Nbsp; service_description CPU idle - Ganglia
& Nbsp; användning some_template
! & Nbsp; check_command check_ganglia_metric cpu_idle 0: 20 0: 0!
& Nbsp; host_name host.example.com
}
Detta kommer att fungera bra tills något går fel med check_ganglia_metric (t.ex. cache-filen inte kan läsas / skrivas till, Ganglia Meta Daemon inte kan nås, etc.). Vid den tidpunkten kommer varje tjänst som bygger på check_ganglia_metric misslyckas, möjligen översvämma dig med varningar. Vi kan förhindra detta genom att använda tjänste beroenden.
Det första vi behöver är en kommandodefinition för att kontrollera åldern på en fil:
definiera kommandot {
& Nbsp; command_name check_file_age
& Nbsp; command_line / usr / lib / nagios / plugins / check_file_age -f $ ARG1 $ -w $ ARG2 $ -c $ ARG3 $
}
Därefter definierar vi en tjänst som kontrollerar ålder check_ganglia_metric cacheminne fil. Observera att för att vara verkligt effektivt måste denna tjänst kontrolleras minst lika (helst mer) oftare än alla andra kontroller som är beroende av check_ganglia_metric:
definiera tjänsten {
& Nbsp; service_description Cache för check_ganglia_metric
& Nbsp; användning some_template
120 check_command check_file_age /var/lib/nagios/.check_ganglia_metric.cache 60; & nbsp!!
& Nbsp; host_name localhost
& Nbsp; check_interval 1
& nbsp; max_check_attempts en
}
Och slutligen, vi satt upp själva tjänsten beroendet. Notera att jag har aktiverat use_regexp_matching i Nagios, vilket gör att jag kan använda reguljära uttryck i mina direktiv. Genom att hålla "- Ganglia" i slutet av varje tjänst som bygger på check_ganglia_metric, kan jag rädda mig själv en stor insats:
definiera servicedependency {
& Nbsp; host_name localhost
& Nbsp; service_description Cache för check_ganglia_metric
& Nbsp; dependent_host_name *.
& Nbsp;. Dependent_service_description * - Ganglia $
& Nbsp; execution_failure_criteria c, p
}
Nu om något går fel med check_ganglia_metric, kommer endast en varning skickas ut om cache-fil, och alla beroende servicekontroller pausas tills du åtgärda problemet som orsakade check_ganglia_metric att misslyckas. När problemet är åtgärdat måste du uppdatera tidsstämpel på cache-filen för att sätta "Cache för check_ganglia_metric" tjänsten tillbaka till en OK tillstånd (vilket gör att beroende servicekontroller för att fortsätta):
& Nbsp; beröring /var/lib/nagios/.check_ganglia_metric.cache
Tips och tricks
Det är möjligt att få en komplett lista över tillgängliga värdar och mätetal genom att "mer utförlig" loggning (-vv). Eftersom metric_host och METRIC_NAME alternativ krävs, har du lite av en "hönan och ägget" problem här, men det är OK. Bara leverera vissa dummy uppgifter. Insticksprogrammet kommer fel i slutet med en "värd / metrisk hittades inte" fel, men inte innan det dumpar sin cache:
& Nbsp; check_ganglia_metric.py --gmetad_host = gmetad-server.example.com
& Nbsp; - metric_host = dummy --metric_name = dummy -vv
Vad är nytt i den här versionen:
- Lägg till - -metrics_max_age alternativet
- Merge CHANGELOG.rst in README.rst
Krav :
- Python
- Nagios
Begränsningar :
- Fungerar inte med Python 2.4
Kommentarer hittades inte