Инженерная практика ENG · 07 · 08

On-call: тест на воспроизведение

Промпты на свободное воспроизведение по юниту on-call. Ответь своими словами, затем открой модельный ответ и сравни — alert по симптомам, burn rate, fatigue, лимиты, escalation, toil.

ENG Senior ◷ 13 min

Уровень

ОсновыJuniorMiddleSenior

Воспроизведение бьёт перечитывание. Для каждого промпта произнеси или запиши полный ответ по памяти, прежде чем открыть модельный — усилие припоминания и есть то, что закрепляет дисциплину on-call к моменту, когда ты реально держишь пейджер.

Цель

Восстанови ключевые механизмы юнита — почему симптомы бьют причины, что делает burn-rate-alerting, анатомию alert fatigue, лимиты нагрузки, жизненный цикл пейджа и как снижение toil держит rotation устойчивой — не подглядывая.

Вспомните перед уходом

01
Почему alerting по симптомам имеет больший рычаг, чем по причинам, и каково единственное исключение?
02
Объясни burn-rate-alerting и почему multi-window, multi-burn-rate бьёт сырой порог error rate.
03
Пройди по механизму alert fatigue и почему его нельзя починить, попросив responder быть внимательнее.
04
Назови лимиты нагрузки on-call от Google SRE и логику, делающую каждый лимит рычагом надёжности, а не просто гуманности.
05
Опиши жизненный цикл хорошо ведомого пейджа от определения до закрытия и где подключается каждый механизм on-call.
06
Что такое toil, почему его снижение важно именно для on-call и как метрики MTTA, MTTR, объём пейджей и % actionable направляют это снижение?

Итог

Если ты смог восстановить каждый ответ по памяти, ты держишь спину юнита: алертить по симптомам и SLO burn rate, а не по причинам; burn-rate-alerting сопоставляет срочность реальной угрозе budget; alert fatigue — структурный сбой, лечимый удалением, а не дисциплиной; лимиты нагрузки (≈2 инцидента/смену, ≤50% ops, ≤25% on-call) защищают инженерию, что держит rotation тихой; каждый пейдж проходит определённый жизненный цикл с runbook и escalation по таймеру; а снижение toil, направляемое MTTA, MTTR, объёмом пейджей и % actionable, и есть то, что держит всё устойчивым. Теперь, когда возьмёшь пейджер по-настоящему, у тебя есть инстинкт — сначала удалять, а не добавлять, и ты знаешь, какая цифра первой покажет, что ротация тихо умирает.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.