Инженерная практика
Postmortems: тест с выбором ответа
Шесть вопросов поперёк всего юнита. Каждый отражает решение, которое ты принимаешь на реальном ретро — не определение для заучивания, а разницу между «починить систему» и «обвинить человека».
Убедись, что отделяешь вину от системного анализа: почему blameless — это решение про информацию, почему сложные сбои многопричинны, что делает action item настоящим и где привычка к five whys ломается.
У команды поразительно чистая история инцидентов — почти ни одного sev1-postmortem за год. Новый SRE-лид читает это как тревожный знак. Почему?
Ретро заключает: «Root cause: инженер запушил непротестированный конфиг. Action: добавили чеклист деплоя». Какая самая сильная сеньорская критика?
Два предложенных action item: (A) «Команде стоит быть аккуратнее при деплое». (B) «Добавить smoke-тест в staging, прогоняющий путь платёжного конфига; владелец Мара; срок 2026-06-15». Почему настоящий action item только B?
«Infinite Hows» Allspaw призывает спрашивать «как» вместо «почему» в расследовании. Каков механизм за этим предпочтением?
Команда пишет тщательные postmortem, но шипит меньше 40% action item за 90 дней; тот же класс аварии повторяется. Что, по юниту, означает эта комбинация?
Организация хочет полный postmortem на каждую production-икоту, включая транзиентные всплески, что сами проходят за секунды. Какова сеньорская позиция по такой политике?
Сквозная линия юнита — одна позиция: сбой это данные о системе, а не улика против человека. Чистая история инцидентов может сигналить о подавленной отчётности; единственный человеческий root cause прячет многопричинную реальность; настоящий action item конкретен, имеет владельца и срок; спрашивать «как» лучше, чем «почему», потому что это вскрывает условия, а не виновных; и вся церемония окупается, только если рационировать её через severity trigger и доводить items до закрытия заметно выше 85%.