Principes d’alerting
Chaque alerte = actionable
Une alerte doit dire « ce qui est cassé maintenant » et « quoi faire ». Si une alerte se déclenche et que l’équipe dit « bof, peu importe », elle est inutile.
Pages uniquement pour critical
severity: critical → PagerDuty / SMS. Seulement si une réaction immédiate est requise (24/7).
warning → le canal Slack de l’équipe. Consulté aux heures de travail.
info → un canal d’audit. Pour le contexte, pas pour l’action.
For-duration protège d’un blip
for_duration_seconds: 60 est le standard. Moins, et vous aurez des flaps. Plus, et vous ne remarquerez pas un vrai incident tout de suite.
Anomaly pour les métriques métier
Un threshold ne convient pas quand « normal » dépend de l’heure de la journée. Anomaly avec offset=7d attrape « pas comme d’habitude un mardi ».