Base de connaissances/Best practices

Principes d’alerting

Chaque alerte = actionable

Une alerte doit dire « ce qui est cassé maintenant » et « quoi faire ». Si une alerte se déclenche et que l’équipe dit « bof, peu importe », elle est inutile.

Pages uniquement pour critical

severity: critical → PagerDuty / SMS. Seulement si une réaction immédiate est requise (24/7).

warning → le canal Slack de l’équipe. Consulté aux heures de travail.

info → un canal d’audit. Pour le contexte, pas pour l’action.

For-duration protège d’un blip

for_duration_seconds: 60 est le standard. Moins, et vous aurez des flaps. Plus, et vous ne remarquerez pas un vrai incident tout de suite.

Anomaly pour les métriques métier

Un threshold ne convient pas quand « normal » dépend de l’heure de la journée. Anomaly avec offset=7d attrape « pas comme d’habitude un mardi ».