Wissensdatenbank/Best practices

Alerting-Prinzipien

Jeder Alert = actionable

Ein Alert soll sagen „was gerade kaputt ist" und „was zu tun ist". Wenn ein Alert feuert und das Team sagt „ist mir egal", braucht man ihn nicht.

Pages nur für critical

severity: critical → PagerDuty / SMS. Nur wenn eine sofortige Reaktion nötig ist (24/7).

warning → der Slack-Channel des Teams. Wird zu Arbeitszeiten angesehen.

info → ein Audit-Channel. Für Kontext, nicht für Aktion.

For-Duration schützt vor einem Blip

for_duration_seconds: 60 ist der Standard. Weniger, und es gibt Flaps. Mehr, und einen echten Incident bemerken Sie nicht sofort.

Anomaly für Business-Metriken

Ein Threshold taugt nicht, wenn „normal" von der Tageszeit abhängt. Anomaly mit offset=7d fängt „nicht wie an einem üblichen Dienstag".