awesome-everything EN
↑ Обратно к восхождению

Инженерная практика

On-call: тест с выбором ответа

Суть Тест с выбором на синтез по всему юниту on-call — alert по симптомам vs причинам, burn-rate-пейджи, alert fatigue, лимиты нагрузки, runbook, escalation и метрики честной rotation.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 13 min

Шесть вопросов поперёк всего юнита. Ни один не про заучивание определения — каждый отражает решение, которое senior принимает о том, что будит пейджер в 4 утра, а что — нет.

Цель

Убедись, что связываешь спину юнита: на пейджере только actionable alert по симптомам/SLO, всё остальное демотировано, нагрузка ограничена, runbook прилинкован, а rotation измеряется через % actionable.

Викторина

Alert на использование диска будит on-call 40 раз в месяц и почти всегда саморазрешается. Почему это опаснее, чем вообще не иметь alert?

Викторина

Тебе надо решить, что будит человека. Какое условие должно быть на пейджере и каков принцип?

Викторина

Google SRE ограничивает смену примерно двумя инцидентами, а операционную работу — 50% времени SRE. Что ломается, если игнорировать лимиты?

Викторина

Какая метрика напрямую сигнализирует, что rotation деградирует к выгоранию?

Викторина

Пейдж сработал, но primary responder застрял и не подтвердил. Какой правильный структурный механизм и какова роль runbook здесь?

Викторина

Предложено изменение для снижения шума: заснузить самые шумные alert и добавить Alertmanager group_by, inhibit_rules и group_wait 30s. Что это даёт, а что нет?

Итог

Сквозная линия юнита — одно правило, применённое на каждом слое: пейдж должен быть actionable, иначе он удаляется. Алертить по симптомам и SLO burn rate, а не по причинам вроде CPU или диска; остальное демотировать в тикеты и дашборды. Ограничь нагрузку (≈2 инцидента/смену, ≤50% ops-времени), чтобы профилактика выжила. Линкуй runbook к каждому пейджу, эскалируй по таймеру, когда responder застрял, и используй grouping/inhibition для схлопывания штормов — но помни, routing только дедуплицирует. Измеряй MTTA, MTTR и объём пейджей и держи курс по северной звезде: % actionable.

Продолжить восхождение ↑On-call: тест на воспроизведение
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources3
expand
  1. 01
  2. 02
  3. 03

Trademarks belong to their respective owners. Editorial reference only.