awesome-everything EN
↑ Обратно к восхождению

Инженерная практика

On-call: тест на воспроизведение

Суть Промпты на свободное воспроизведение по юниту on-call. Ответь своими словами, затем открой модельный ответ и сравни — alert по симптомам, burn rate, fatigue, лимиты, escalation, toil.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 13 min

Воспроизведение бьёт перечитывание. Для каждого промпта произнеси или запиши полный ответ по памяти, прежде чем открыть модельный — усилие припоминания и есть то, что закрепляет дисциплину on-call к моменту, когда ты реально держишь пейджер.

Цель

Восстанови ключевые механизмы юнита — почему симптомы бьют причины, что делает burn-rate-alerting, анатомию alert fatigue, лимиты нагрузки, жизненный цикл пейджа и как снижение toil держит rotation устойчивой — не подглядывая.

Вспомните перед уходом
  1. 01
    Почему alerting по симптомам имеет больший рычаг, чем по причинам, и каково единственное исключение?
  2. 02
    Объясни burn-rate-alerting и почему multi-window, multi-burn-rate бьёт сырой порог error rate.
  3. 03
    Пройди по механизму alert fatigue и почему его нельзя починить, попросив responder быть внимательнее.
  4. 04
    Назови лимиты нагрузки on-call от Google SRE и логику, делающую каждый лимит рычагом надёжности, а не просто гуманности.
  5. 05
    Опиши жизненный цикл хорошо ведомого пейджа от определения до закрытия и где подключается каждый механизм on-call.
  6. 06
    Что такое toil, почему его снижение важно именно для on-call и как метрики MTTA, MTTR, объём пейджей и % actionable направляют это снижение?
Итог

Если ты смог восстановить каждый ответ по памяти, ты держишь спину юнита: алертить по симптомам и SLO burn rate, а не по причинам; burn-rate-alerting сопоставляет срочность реальной угрозе budget; alert fatigue — структурный сбой, лечимый удалением, а не дисциплиной; лимиты нагрузки (≈2 инцидента/смену, ≤50% ops, ≤25% on-call) защищают инженерию, что держит rotation тихой; каждый пейдж проходит определённый жизненный цикл с runbook и escalation по таймеру; а снижение toil, направляемое MTTA, MTTR, объёмом пейджей и % actionable, и есть то, что держит всё устойчивым.

Продолжить восхождение ↑On-call: alert-правила и математика budget
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources3
expand
  1. 01
  2. 02
  3. 03

Trademarks belong to their respective owners. Editorial reference only.