База знаний/Best practices

Принципы алертинга

Каждый алерт = actionable

Алерт должен говорить «что сейчас сломано» и «что делать». Если алерт срабатывает и команда говорит «ну и фиг с ним» — он не нужен.

Pages только для critical

severity: critical → PagerDuty / SMS. Только если требуется немедленная реакция (24/7).

warning → Slack-канал команды. Смотрят в рабочее время.

info → audit-канал. Для контекста, не для действий.

For-duration защищает от blip

for_duration_seconds: 60 — стандартное. Меньше — будут флапы. Больше — реальный инцидент не заметите сразу.

Anomaly для бизнес-метрик

Threshold не годится когда «нормальное» зависит от времени суток. Anomaly с offset=7d ловит «не как обычно по вторникам».