awesome-everything EN
↑ Обратно к восхождению

Инженерная практика

Postmortems: чтение и критика артефактов

Суть Читай реальные таймлайны инцидентов, лог-строки, списки action item и черновик плохого postmortem, затем выбирай сеньорскую критику или фикс с наибольшим рычагом.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 14 min

Postmortem читается как артефакт — таймлайн, лог-строка, список action item, черновик документа. Прочитай каждый так, как это делает сеньор-ревьюер, и выбери ход, что превращает его из театра в систему, которую чинят.

Цель

Отработай цикл ревью, который ты прогоняешь на каждом черновике ретро: просканируй таймлайн на язык вины, проверь анализ на схлопывание к единственному root cause и оцени, можно ли каждый action item довести до закрытия.

Артефакт 1 — черновик таймлайна

14:02  Инженер J небрежно деплоит релиз 4.18 прямо в prod
14:05  Сайт падает, потому что J пропустил шаг staging
14:31  J наконец замечает алерт и начинает откат
14:46  Сервис восстановлен после того, как J откатил изменение
Викторина

Что не так с этим таймлайном как основой для blameless-postmortem?

Артефакт 2 — секция анализа

ПОЧЕМУ упал checkout?       Новый релиз падал на старте.
ПОЧЕМУ падал?               Обязательная env-переменная не задана в prod.
ПОЧЕМУ не задана?           Инженер забыл её добавить.
ПОЧЕМУ забыл?               Спешил перед встречей.
ROOT CAUSE: человеческая ошибка (инженер спешил). FIX: сказать команде не спешить.
Викторина

Цепочка five whys приземлилась на «человеческая ошибка, сказать команде не спешить». Какова сеньорская переформулировка?

Артефакт 3 — список action item

AI-1  Улучшить надёжность деплоя                       владелец: команда
AI-2  Добавить валидацию env-переменных при старте      владелец: Прия   срок: 2026-06-10
AI-3  Быть аккуратнее с prod-конфигом                   владелец: -      срок: -
AI-4  Добавить staging-гейт, блокирующий деплой при
      отсутствии обязательного конфига; алерт в #payments владелец: Сэм   срок: 2026-06-20
Викторина

Триажируя этот список перед закрытием ретро, какие items настоящие, а какие надо переписать или выбросить?

Артефакт 4 — опубликованное резюме postmortem

ИНЦИДЕНТ 412 — Авария checkout
Severity: sev1     Длительность: не зафиксирована
Impact: у некоторых пользователей какое-то время были проблемы с оформлением
Root cause: плохой деплой от on-call
Resolution: откатили
Action items: нет — проблема решена, дальнейших действий не требуется
Викторина

Это резюме sev1 вот-вот подошьют и закроют. Какая самая серьёзная проблема публикации его как есть?

Итог

Каждый артефакт postmortem ревьюится одинаково: таймлайн должен быть нейтральным и с метками времени, а не отредактированным «небрежно» и «наконец»; цепочка five whys, приземлившаяся на «человеческую ошибку», — это сигнал переключиться с «почему» на «как» и вскрыть системные условия; action item настоящий, только если конкретен, единолично владеем и датирован; а опубликованный sev1 с размытым impact и нулём action item — театр, гарантирующий повтор. Читай на язык вины, схлопывание к единственному root cause и неотслеживаемые items — это три дефекта, что превращают ретро в проставление галочек.

Продолжить восхождение ↑Postmortems: написать и отревьюить blameless-ретро
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources3
expand
  1. 01
  2. 02
  3. 03

Trademarks belong to their respective owners. Editorial reference only.