Инженерная практика ENG · 07 · 07

On-call: тест с выбором ответа

Тест с выбором на синтез по всему юниту on-call — alert по симптомам vs причинам, burn-rate-пейджи, alert fatigue, лимиты нагрузки, runbook, escalation и метрики честной rotation.

ENG Senior ◷ 13 min

Уровень

ОсновыJuniorMiddleSenior

Шесть вопросов поперёк всего юнита. Ни один не про заучивание определения — каждый отражает решение, которое senior принимает о том, что будит пейджер в 4 утра, а что — нет.

Цель

Убедись, что связываешь спину юнита: на пейджере только actionable alert по симптомам/SLO, всё остальное демотировано, нагрузка ограничена, runbook прилинкован, а rotation измеряется через % actionable.

Викторина

Alert на использование диска будит on-call 40 раз в месяц и почти всегда саморазрешается. Почему это опаснее, чем вообще не иметь alert?

Викторина

Тебе надо решить, что будит человека. Какое условие должно быть на пейджере и каков принцип?

Викторина

Google SRE ограничивает смену примерно двумя инцидентами, а операционную работу — 50% времени SRE. Что ломается, если игнорировать лимиты?

Викторина

Какая метрика напрямую сигнализирует, что rotation деградирует к выгоранию?

Викторина

Пейдж сработал, но primary responder застрял и не подтвердил. Какой правильный структурный механизм и какова роль runbook здесь?

Викторина

Предложено изменение для снижения шума: заснузить самые шумные alert и добавить Alertmanager group_by, inhibit_rules и group_wait 30s. Что это даёт, а что нет?

Итог

Сквозная линия юнита — одно правило, применённое на каждом слое: пейдж должен быть actionable, иначе он удаляется. Алертить по симптомам и SLO burn rate, а не по причинам вроде CPU или диска; остальное демотировать в тикеты и дашборды. Ограничь нагрузку (≈2 инцидента/смену, ≤50% ops-времени), чтобы профилактика выжила. Линкуй runbook к каждому пейджу, эскалируй по таймеру, когда responder застрял, и используй grouping/inhibition для схлопывания штормов — но помни, routing только дедуплицирует. Измеряй MTTA, MTTR и объём пейджей и держи курс по северной звезде: % actionable. Теперь, когда видишь растущий тренд объёма пейджей при падающем % actionable, знаешь, что делать первым: аудит и удаление, а не добавление новых алертов.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.