Инженерная практика ENG · 07 · 09

On-call: alert-правила и математика budget

Читай реальные alert-правила Prometheus, multi-burn-rate SLO-правило, расчёт error budget и Alertmanager-route, затем выбери senior-фикс или верно прочитай математику.

ENG Senior ◷ 14 min

Уровень

ОсновыJuniorMiddleSenior

Alert-правила и математика error budget — это место, где философия on-call становится конфигом. Прочитай каждый сниппет, предскажи, что он сделает с пейджером, и выбери фикс, который senior делает первым.

Цель

Потренируй цикл, превращающий принцип в доверяемый пейджер: прочитай alert-правило, оцени, алертит ли оно на симптом или причину, посчитай burn-rate и budget и заметь шаг runbook, который реально снижает MTTR.

Сниппет 1 — cause-based alert-правило

groups:
- name: node
  rules:
  - alert: HighCPU
    expr: instance:node_cpu_utilisation:rate5m > 0.80
    for: 1m
    labels:
      severity: page
    annotations:
      summary: "CPU above 80% on {{ $labels.instance }}"

Викторина

Это правило будит с severity: page. Что в нём не так и каков фикс с наибольшим рычагом?

Сниппет 2 — multi-burn-rate SLO-правило

# SLO: 99.9% доступность за 30 дней. Budget = 0.1% запросов могут упасть.
- alert: ErrorBudgetFastBurn
  expr: |
    (
      job:slo_errors_per_request:ratio_rate1h{job="api"} > (14.4 * 0.001)
    and
      job:slo_errors_per_request:ratio_rate5m{job="api"} > (14.4 * 0.001)
    )
  for: 2m
  labels:
    severity: page

Викторина

Почему это правило требует превышения 14.4× budget И в окне 1ч, И в окне 5м, и что означает множитель 14.4×?

Сниппет 3 — арифметика error budget

SLO            = 99.95% successful requests over 30 days
Traffic        = 2,000 requests/second, steady
Budget         = (1 - 0.9995) = 0.05% of requests may fail
Incident       = a deploy bug returns 5xx on 2% of requests for 30 minutes
Question       = how much of the 30-day error budget did this one incident burn?

Викторина

Примерно какую долю месячного error budget съел этот 30-минутный инцидент с 2% ошибок?

Сниппет 4 — шаг runbook

## Runbook: api ErrorBudgetFastBurn
1. Подтверди пейдж; открой SLO-дашборд (latency, errors, traffic, saturation).
2. Проверь панель деплоев: был ли релиз за последние 30 мин? Если да — сначала ОТКАТИ.
3. (Если недавнего деплоя нет) проверь панель ошибок upstream-зависимостей и насыщение БД.
4. Смягчи, чтобы остановить burn; только потом разбирайся в root-cause.
5. Если error rate не падает в течение 15 мин — эскалируй вторичному.

Викторина

Шаг 2 велит откатить недавний deploy до root-cause. Почему этот порядок верен для on-call responder в разгар инцидента?

Итог

On-call читается в конфиге и арифметике: сырой порог CPU с тегом severity: page — это cause-alert, плодящий fatigue; multi-window, multi-burn-rate-правило срабатывает на реальном быстром burn и игнорирует флапы; математика error budget превращает короткий инцидент в конкретный процент месячного допуска, так что ты соразмеряешь срочность реальному вреду; а хороший runbook кодирует mitigate-before-diagnose с escalation по таймеру, чтобы медианный responder восстанавливал быстро. Суди alert по actionability, делай математику budget и дай runbook нести мозг в 3 утра.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.