Блог·2026-03-01

Постмортем: высокая cardinality положила VM

Что мы узнали о cardinality бюджетах.

#postmortem#performance

Что произошло

В пятницу в 14:00 один наш клиент задеплоил новую custom-метрику с user_id в лейбле. У них 50k активных юзеров. За 30 минут cardinality пробила 5M unique series. VM начал тормозить, OOM-kill каждые 5 минут, дашборды timeout’ились.

Что мы сделали

  1. Detected: alert «vm_series_count > 4M» сработал, on-call увидел через 8 минут
  2. Mitigated: подняли cardinality limit на VM до 10M, restart VM на большем инстансе
  3. Resolved: связались с клиентом, помогли убрать user_id из лейблов, перенесли в logs

Что мы изменили

  1. Per-org cardinality budget — теперь есть soft cap, при превышении предупреждение в кабинет
  2. `/app/metrics-budget` — страница с топом метрик по cardinality
  3. Документация — добавили Cardinality management в onboarding

Урок

Cardinality — это самое разрушительное, что юзер может сделать с TSDB. Нужны рельсы.