Stell dir vor, du bist auf einer Party und dein Handy vibriert immer wieder. Du denkst, es könnte etwas Wichtiges sein, schaust nach und es ist... noch ein weiterer unwichtiger Alarm von deinem Server-Monitoring. Fehlalarme sind so ziemlich das Äquivalent zu Spam-Mails in deinem Posteingang - lästig und meistens unnötig. Also, wie können wir diese Situation verbessern?
Betrachten wir das Ganze mal aus der Sicht eines Sysadmins. Du willst sicherstellen, dass du nur dann benachrichtigt wirst, wenn wirklich etwas Schief geht, und natürlich willst du auch wissen, was genau das Problem ist. Du willst nicht ständig von "Wolf!" schreienden Systemen unterbrochen werden. Hier ist unsere Anleitung, wie du das erreichen kannst.
Zuerst müssen wir uns um die Big Four kümmern: CPU, RAM, Disk und Services. Diese vier sind die Hauptakteure auf deiner Server-Bühne und diejenigen, die du im Auge behalten solltest.
Bei der CPU ist es wichtig, die Auslastung und die Warteschlange zu überwachen. Aber Vorsicht, nicht jeder CPU-Spitzenwert ist ein Grund zur Sorge. Wenn deine CPU zum Beispiel bei 100% Auslastung läuft, aber die Warteschlange leer ist, dann macht sie einfach ihren Job. Alarm schlagen solltest du erst, wenn die Warteschlange anfängt zu wachsen.
Die RAM-Überwachung kann ein wenig kniffliger sein. Es ist nicht ungewöhnlich, dass fast der gesamte RAM verwendet wird, da Linux versucht, den verfügbaren Speicher optimal zu nutzen. Du solltest also eher auf das Swap-Verhalten achten. Wenn dein System anfängt zu swappen, solltest du definitiv einen Blick darauf werfen.
Was Festplatten betrifft, so sind sowohl der Speicherplatz als auch die E/A-Operationen wichtig. Wenn dein Speicherplatz zur Neige geht oder die E/A-Operationen in die Höhe schnellen, solltest du das wissen.
Zu guter Letzt die Services. Hier solltest du natürlich darauf achten, dass alle wichtigen Dienste laufen. Aber denke daran, dass nicht jeder gestoppte Dienst ein Problem ist. Manche Dienste starten automatisch neu, wenn sie abstürzen. Du solltest also eher auf wiederholte Abstürze und Neustarts achten.
Um die Alarmflut zu reduzieren, ist es wichtig, Schwellenwerte richtig zu setzen. Es ist sinnvoll, sie nicht zu niedrig anzusetzen, um nicht bei jeder kleinen Änderung einen Alarm auszulösen. Andererseits sollten sie auch nicht zu hoch sein, um nicht wichtige Probleme zu übersehen. Es ist ein Balanceakt, aber mit etwas Übung wirst du ein Gefühl dafür bekommen.
Das war's für heute, Superheld. Bleib dran für den nächsten Teil unserer Monitoring-Reihe, in dem wir uns ansehen, wie man Alerts und Benachrichtigungen richtig einstellt. Bis dahin, halte deine Systeme im Auge und lass dich nicht von der Alarmflut unterkriegen!