Принципы алертинга
Каждый алерт = actionable
Алерт должен говорить «что сейчас сломано» и «что делать». Если алерт срабатывает и команда говорит «ну и фиг с ним» — он не нужен.
Pages только для critical
severity: critical → PagerDuty / SMS. Только если требуется немедленная реакция (24/7).
warning → Slack-канал команды. Смотрят в рабочее время.
info → audit-канал. Для контекста, не для действий.
For-duration защищает от blip
for_duration_seconds: 60 — стандартное. Меньше — будут флапы. Больше — реальный инцидент не заметите сразу.
Anomaly для бизнес-метрик
Threshold не годится когда «нормальное» зависит от времени суток. Anomaly с offset=7d ловит «не как обычно по вторникам».