Суть Читай реальные таймлайны инцидентов, лог-строки, списки action item и черновик плохого postmortem, затем выбирай сеньорскую критику или фикс с наибольшим рычагом.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 14 min
Postmortem читается как артефакт — таймлайн, лог-строка, список action item, черновик документа. Прочитай каждый так, как это делает сеньор-ревьюер, и выбери ход, что превращает его из театра в систему, которую чинят.
Цель
Отработай цикл ревью, который ты прогоняешь на каждом черновике ретро: просканируй таймлайн на язык вины, проверь анализ на схлопывание к единственному root cause и оцени, можно ли каждый action item довести до закрытия.
Артефакт 1 — черновик таймлайна
14:02 Инженер J небрежно деплоит релиз 4.18 прямо в prod14:05 Сайт падает, потому что J пропустил шаг staging14:31 J наконец замечает алерт и начинает откат14:46 Сервис восстановлен после того, как J откатил изменение
Викторина
Completed
Что не так с этим таймлайном как основой для blameless-postmortem?
Heads-up Длина — не дефект. Таймлайн из четырёх событий может быть нормальным; проблема здесь в прилагательных. Нейтральная формулировка важнее числа записей.
Heads-up Больше технических деталей может помочь, но блокирующий дефект — язык вины. Даже с точной командой «небрежно» и «наконец» всё равно отравляли бы ретро.
Heads-up Нейтральное «релиз 4.18 был задеплоен в prod в 14:02» несёт тот же факт без вины. «Небрежно» и «пропустил» — это суждения, и они учат следующего инженера вычищать свой таймлайн.
Артефакт 2 — секция анализа
ПОЧЕМУ упал checkout? Новый релиз падал на старте.ПОЧЕМУ падал? Обязательная env-переменная не задана в prod.ПОЧЕМУ не задана? Инженер забыл её добавить.ПОЧЕМУ забыл? Спешил перед встречей.ROOT CAUSE: человеческая ошибка (инженер спешил). FIX: сказать команде не спешить.
Викторина
Completed
Цепочка five whys приземлилась на «человеческая ошибка, сказать команде не спешить». Какова сеньорская переформулировка?
Heads-up Больше «почему» лишь углубляют ту же линейную цепочку и сильнее давят на человека. Критика Infinite Hows в том, что сама why-цепочка — проблема; ты переключаешься на «как», чтобы вскрыть несколько условий, а не сверлить один глубже.
Heads-up «Не спешить» неназначаемо, неотслеживаемо и игнорирует, что система пропустила невалидированный конфиг в prod. Это канонический не-action-item, от которого юнит предостерегает.
Heads-up Это ровно тот ход вины, что разрушает отчётность. То, что инженер забыл, — симптом; система, что задеплоила незаданную обязательную переменную без защиты, — починимая причина.
Артефакт 3 — список action item
AI-1 Улучшить надёжность деплоя владелец: командаAI-2 Добавить валидацию env-переменных при старте владелец: Прия срок: 2026-06-10AI-3 Быть аккуратнее с prod-конфигом владелец: - срок: -AI-4 Добавить staging-гейт, блокирующий деплой при отсутствии обязательного конфига; алерт в #payments владелец: Сэм срок: 2026-06-20
Викторина
Completed
Триажируя этот список перед закрытием ретро, какие items настоящие, а какие надо переписать или выбросить?
Heads-up Намерение — не action item. AI-1 владеется «командой» (никем), а у AI-3 нет владельца, срока и определения «готово» — оба пожелания, которые нельзя довести до закрытия.
Heads-up Наоборот. AI-1 — самая размытая строка списка. Узкие, владеемые, датированные items (AI-2, AI-4) — именно те, что меняют будущее.
Heads-up AI-4 — сильнейший item: он добавляет системную защиту с владельцем и сроком. Удалить его ради краткости списка — значит убрать изменение, с наибольшей вероятностью предотвращающее повтор.
Артефакт 4 — опубликованное резюме postmortem
ИНЦИДЕНТ 412 — Авария checkoutSeverity: sev1 Длительность: не зафиксированаImpact: у некоторых пользователей какое-то время были проблемы с оформлениемRoot cause: плохой деплой от on-callResolution: откатилиAction items: нет — проблема решена, дальнейших действий не требуется
Викторина
Completed
Это резюме sev1 вот-вот подошьют и закроют. Какая самая серьёзная проблема публикации его как есть?
Heads-up Лоск нерелевантен. Сущностные отказы — неквантифицированный impact, root cause в форме вины и отсутствие action item; более длинный документ с тем же содержанием был бы так же бесполезен.
Heads-up Зафиксировать sev1 правильно, а быстрая публикация поощряется. Реальные дефекты — отсутствующий квантифицированный impact и отсутствие любых отслеживаемых action item.
Heads-up «Решён» значит, что сервис вернулся, а не что система починена. Sev1 без contributing factors и без action item — учебниковая заготовка для повтора, от которой предостерегает юнит.
Итог
Каждый артефакт postmortem ревьюится одинаково: таймлайн должен быть нейтральным и с метками времени, а не отредактированным «небрежно» и «наконец»; цепочка five whys, приземлившаяся на «человеческую ошибку», — это сигнал переключиться с «почему» на «как» и вскрыть системные условия; action item настоящий, только если конкретен, единолично владеем и датирован; а опубликованный sev1 с размытым impact и нулём action item — театр, гарантирующий повтор. Читай на язык вины, схлопывание к единственному root cause и неотслеживаемые items — это три дефекта, что превращают ретро в проставление галочек.