Base de conocimiento/Best practices

Principios de alerting

Cada alerta = accionable

Una alerta debe decir «qué está roto ahora» y «qué hacer». Si una alerta se dispara y el equipo dice «bah, da igual», no hace falta.

Pages solo para critical

severity: critical → PagerDuty / SMS. Solo si se requiere una reacción inmediata (24/7).

warning → el canal de Slack del equipo. Se mira en horario laboral.

info → un canal de auditoría. Para contexto, no para acción.

For-duration protege de un blip

for_duration_seconds: 60 es el estándar. Menos, y tendrás flaps. Más, y no notarás un incidente real de inmediato.

Anomaly para métricas de negocio

Un threshold no sirve cuando «lo normal» depende de la hora del día. Anomaly con offset=7d capta «no como un martes habitual».