Alerting-Prinzipien
Jeder Alert = actionable
Ein Alert soll sagen „was gerade kaputt ist" und „was zu tun ist". Wenn ein Alert feuert und das Team sagt „ist mir egal", braucht man ihn nicht.
Pages nur für critical
severity: critical → PagerDuty / SMS. Nur wenn eine sofortige Reaktion nötig ist (24/7).
warning → der Slack-Channel des Teams. Wird zu Arbeitszeiten angesehen.
info → ein Audit-Channel. Für Kontext, nicht für Aktion.
For-Duration schützt vor einem Blip
for_duration_seconds: 60 ist der Standard. Weniger, und es gibt Flaps. Mehr, und einen echten Incident bemerken Sie nicht sofort.
Anomaly für Business-Metriken
Ein Threshold taugt nicht, wenn „normal" von der Tageszeit abhängt. Anomaly mit offset=7d fängt „nicht wie an einem üblichen Dienstag".