Инженерная практика ENG · 06 · 07

Postmortems: тест с выбором ответа

Тест с выбором на синтез по всему юниту — blameless-культура, contributing factors против единственного root cause, качество action item, критика five whys и культура обучения.

ENG Senior ◷ 13 min

Уровень

ОсновыJuniorMiddleSenior

Шесть вопросов поперёк всего юнита. Каждый отражает решение, которое ты принимаешь на реальном ретро — не определение для заучивания, а разницу между «починить систему» и «обвинить человека».

Цель

Убедись, что отделяешь вину от системного анализа: почему blameless — это решение про информацию, почему сложные сбои многопричинны, что делает action item настоящим и где привычка к five whys ломается.

Викторина

У команды поразительно чистая история инцидентов — почти ни одного sev1-postmortem за год. Новый SRE-лид читает это как тревожный знак. Почему?

Викторина

Ретро заключает: «Root cause: инженер запушил непротестированный конфиг. Action: добавили чеклист деплоя». Какая самая сильная сеньорская критика?

Викторина

Два предложенных action item: (A) «Команде стоит быть аккуратнее при деплое». (B) «Добавить smoke-тест в staging, прогоняющий путь платёжного конфига; владелец Мара; срок 2026-06-15». Почему настоящий action item только B?

Викторина

«Infinite Hows» Allspaw призывает спрашивать «как» вместо «почему» в расследовании. Каков механизм за этим предпочтением?

Викторина

Команда пишет тщательные postmortem, но шипит меньше 40% action item за 90 дней; тот же класс аварии повторяется. Что, по юниту, означает эта комбинация?

Викторина

Организация хочет полный postmortem на каждую production-икоту, включая транзиентные всплески, что сами проходят за секунды. Какова сеньорская позиция по такой политике?

Итог

Сквозная линия юнита — одна позиция: сбой это данные о системе, а не улика против человека. Чистая история инцидентов может сигналить о подавленной отчётности; единственный человеческий root cause прячет многопричинную реальность; настоящий action item конкретен, имеет владельца и срок; спрашивать «как» лучше, чем «почему», потому что это вскрывает условия, а не виновных; и вся церемония окупается, только если рационировать её через severity trigger и доводить items до закрытия заметно выше 85%. Теперь, войдя на ретро, ты увидишь каждый из этих режимов отказа с первого взгляда — и будешь знать, какой именно вопрос ломает паттерн.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.