Base de connaissances/Best practices

Modèles de tableaux de bord

SRE on-call

  • 4 widgets en haut : error rate / p95 latency / RPS / saturation (la méthode USE)
  • Variables : env=prod (static), service=label_values
  • Auto-refresh : 30s

Capacity planning

  • Graphes CPU/RAM sur 7 jours pour tout le parc
  • Predict_linear pour la mémoire : predict_linear(node_memory_used_percent[7d], 86400 * 30) — où nous en serons dans 30 jours
  • Authentication metrics : nouveaux utilisateurs / actifs / churn

KPI métier

  • Revenue (une métrique custom)
  • Signups / day
  • Funnel : visits → signup → trial → paid

Embed pour les clients

  • 1-2 widgets : success rate + latency
  • Public share avec un TTL de 30 jours