Werden meine Server und die installierten Services von SysEleven überwacht?

Jeder Server, der bei uns installiert wird, bekommt einige Basis Checks. So überwachen wir z. B. auf jedem Server die Festplattenbelegung und die Speicherauslastung.

  • Wir überwachen alle von uns installierten Services mit Icinga.
  • Jeder Service sollte einen korrespondierenden Service Check haben. Sollte dies nicht der Fall sein, sollten wir umgehend darüber informiert werden. Wir werden den Service Check dann einrichten.
  • Jede Live Domain sollte auch einen String Check erhalten. Damit können wir nach einem String auf der Seite suchen, z. B. einen Teil der Adresse oder die Umsatzsteuer-ID. Diese Werte werden nur selten verändert.
  • Wir installieren auch einen Zabbix Agent auf jeden Server. Damit können wir historische Performance-Daten über die Server unserer Kunden erfassen. Diese Performance-Daten helfen, die Auslastung der Server besser einzuschätzen. Wir richten auch gerne ein Zabbix Dashboard ein, das alle wichtigen Informationen über die Server auf einen Blick zeigt.

Grundsätzlich wird für jeden Dienst, welcher über das von SysEleven verwendete Konfigurationsmanagement-System (Puppet) installiert und verwaltet wird, automatisch eine Konfiguration zur Verfügbarkeitsmessung des Dienstes auf dem jeweiligen Monitoring Server angelegt. Das betrifft aber nicht nur einzelne Dienste auf einem Server, sondern auch grundlegende Metriken wie z.B. die Speicherbelegung der Festplatte, des Arbeitsspeichers (RAM) sowie auch die generelle Erreichbarkeit des jeweiligen Hosts über das Netzwerk (ping/ICMP "Echo-Request"). Folgende Übersicht beschreibt alle grundlegenden Checks (Überprüfungen), welche für jeden Server immer vorhanden sind:


Metrik (Check) Beschreibung
APT Überprüft den Rückgabestatus bei Ausführung des Paketmanagement Tool APT.
Crondaemon Überprüft die Funktion des lokalen Cron Dienst auf dem System.
Load Überwacht die CPU-Auslastung auf dem System.
Mailq Überwacht die Mail Queue (Warteschlange) auf dem lokalen System.
Out-Of-Memory Killer Schlägt an wenn ein Dienst auf dem virtuellen Server wegen eines zu hohen Speicherbedarfs vom Kernel der darunter liegenden Hardware Node hart beendet wurde.
Outgoing IP Überprüft ob ausgehende TCP Verbindungen als Quell IP-Adresse auch der ersten öffentlichen IP-Adresse entsprechen, welche dem Server zugewiesen ist.
PING Überprüft die Erreichbarkeit des jeweiligen Server per ICMP "Echo-Request".
Puppet Überprüft den Status des sog. Puppet Agent, also dem Programm, welches zentral festgelegte Konfigurationsänderungen auf dem System anwendet.
RAM Überwacht die Auslastung des Arbeitsspeichers (RAM) auf dem System.
Total Proc Überwacht die maximale Anzahl der laufenden Prozesse auf einem System.
VZFS Überwacht die Festplattenbelegung auf dem System und alarmiert, falls bestimmte Grenzwerte überschritten werden.
Zabbix Agent TCP Überprüft die Verfügbarkeit des Zabbix Agent über den TCP Port 10050, welcher die Metriken für das Trending-System (Zabbix) ausliefert, die von einem zentralen Server abgefragt werden.
Zombie Proc Stellt fest, ob in der Prozessliste sog. Zombie-Prozesse (tote bzw. verwaiste Prozesse) existieren.

Wie bereits oben erwähnt, wird praktisch für jeden über Puppet verwalteten Dienst auf einem System auch ein entsprechender Check auf dem Monitoring Server angelegt. Das betrifft u.a. folgende Dienste, welche sehr häufig oder fast in jedem Setup auf mindestens einem Server installiert sind:

Metrik (Check) Beschreibung
SSH Überwacht die Erreichbarkeit des SSH Daemon auf der internen, privaten IP-Adresse des Server über TCP Port 22
HTTP Überwacht die Erreichbarkeit des HTTP Daemon (Webserver) auf der internen, privaten IP-Adresse des Server über TCP Port 80
SMTP Überwacht die Erreichbarkeit des SMTP Daemon (Mailserver) auf der internen, privaten IP-Adresse des Server über TCP Port 25
Redis TCP Überwacht die Erreichbarkeit des Redis Daemon auf der internen, privaten IP-Adresse des Server über TCP Port 6379
Memcache Überwacht die Erreichbarkeit/Latenz des Memcache Daemon auf der internen, privaten IP-Adresse des Server über TCP Port 11211
MySQL Überprüft die Erreichbarkeit des MySQL Dienstes über den lokalen Unix Domain Socket (/var/run/mysqld.sock).
MySQL Log Überprüft das MySQL Error Log auf Fehlermeldungen und meldet diese bzw. alarmiert, falls dort welche auftreten.
MySQL Replication Überwacht den Status der Replikation auf jedem weiteren DB-Server ihres Replication-Setups und warnt bzw. alarmiert, wenn die Replikation zu stark verzögert ist oder komplett unterbrochen wurde.
Elasticsearch, Health Check Überprüft den Health Status des Elasticsearch Cluster bzw. Server über die sog. Cluster API von Elasticsearch. Der Check alarmiert, wenn die Elasticsearch Instanz entweder nicht erreichbar oder Health Status des Clusters 'red' ist.
Java RAM Check Überprüft die RAM Belegung durch die installierte Java VM auf dem Server und alarmiert, wenn bestimmte Grenzwerte erreicht werden.
NFS mount Überwacht den mount point (Einhängepunkt) des auf einem Server eingehängten NFS Share.
NFS space Überwacht die Speicherbelegung auf einem eingehängten NFS Share.

SysEleven entwickelt seine Produkte und Services ständig weiter, um seinen Kunden das beste Produkt bieten zu können. Ausführungsänderungen behalten wir uns daher vor, wenn sie durch technische Weiterentwicklung bedingt sind oder die Funktion des Produktes/Services hierdurch nicht wesentlich verändert wird. Irrtümer vorbehalten.