Производительность PERF · 08 · 01

Цикл performance: дисциплина, а не проект

Performance деградирует по умолчанию. Восьмишаговый цикл — observe, profile, classify, predict, fix, verify, enforce, repeat — это дисциплина, удерживающая сервис быстрым год за годом.

PERF Junior ◷ 10 min

Уровень

ОсновыJuniorMiddleSenior

Уже знаешь этот юнит? Пройди быструю проверку за минуту →

Команда исправила p99 с 1,2 с до 200 мс. Они объявили задачу завершённой, выпустили релиз и занялись другим. Через шесть месяцев p99 снова 900 мс. Не одна регрессия — просто новые фичи, новые библиотеки, больший JSON-ответ от upstream-сервиса. Исправление было правильным. Не хватало дисциплины.

К концу урока ты поймёшь точный механизм, из-за которого исправление незаметно исчезает — и единственный шаг, который это предотвращает.

Почему performance деградирует по умолчанию

Каждая новая фича добавляет байты, запросы или аллокации. Каждое обновление зависимостей привносит новые code path. Каждое изменение схемы может превратить быстрый запрос в медленный. Без механизма для обнаружения этих добавлений performance непрерывно деградирует.

Разовая оптимизация имеет эффективный период полураспада три-шесть месяцев. После этого окна накопленные изменения от новых фич отменяют улучшения. Команды, которые воспринимают performance как проект, добиваются результата — и постепенно откатываются назад. Команды, которые воспринимают его как дисциплину, удерживают результат.

Разница — в одном механизме: цикле.

Дисциплина не дороже — она дешевле. Она заранее вкладывает затраты в CI gates и observability вместо 20–40% на повторяющееся пожаротушение.

Восьмишаговый цикл performance

Когда эти восемь шагов закреплены, любое замедление перестаёт быть загадкой и превращается в структурированный поиск. Вот последовательность, которую запускает каждый senior-инженер:

Observe — появляется симптом: SLO burn, RUM-регрессия, жалоба пользователя, алерт на дашборде. Это говорит о том, что что-то не так, но не что именно.
Profile — захватить данные, подходящие к симптому. Flame graph по CPU для CPU-спайков, allocation profile для роста памяти, network waterfall для медленных загрузок страниц, bundle analyzer для client-side раздутости.
Classify — назвать bottleneck по family: CPU-algorithmic, allocation-bound, cache-bound, lock-bound, I/O-bound (N+1), syscall-bound (batching), JIT-deopt, bundle-bound. Каждая family имеет известный набор исправлений.
Predict — использовать закон Амдала для оценки улучшения headline-метрики при устранении этого hotspot. Если прогноз ниже целевого SLO, это не тот hotspot — вернитесь к шагу 2.
Fix — из playbook family выбрать технику, соответствующую конкретной форме hotspot. Применить только предсказанное изменение; никакого scope creep.
Verify — повторно профилировать под той же нагрузкой. Подтвердить, что и локальный hotspot уменьшился, И headline-метрика улучшилась.
Enforce — добавить CI gate, алерт или запись в runbook, предотвращающую возврат именно этой регрессии.
Move on — найти следующий bottleneck. Цикл никогда не заканчивается; он перемещается между слоями.

Все восемь шагов образуют замкнутую систему обратной связи: observe превращает туманный симптом в конкретный сигнал, enforce конвертирует разовое исправление в постоянную защиту, move-on удерживает цикл живым. Пропусти enforce — и шаг 5 станет работой, которую придётся повторить через полгода.

Шаг	Действие	Результат служит входом для
1. Observe	Заметить симптом	Какой сервис / метрику профилировать
2. Profile	Захватить правильный поток данных	Имя горячей функции / span
3. Classify	Назвать family bottleneck	Playbook для исправлений
4. Predict	Оценка по Амдалу	Решение работать с этим hotspot или нет
5. Fix	Применить подходящую технику	Изменённый код / конфиг
6. Verify	Повторно профилировать под той же нагрузкой	Подтверждение или откат
7. Enforce	CI gate / алерт / runbook	Деплой, защищённый от регрессий
8. Move on	Найти следующий bottleneck	Следующая итерация шага 1

Метафора с кухней

Performance похожа на уборку кухни, а не на покраску комнаты. Покрасить один раз — достаточно. Кухня, убранная однажды, снова загрязняется по мере приготовления еды; её убирают непрерывно.

Каждый из семи фрагментов этой главы — инструмент: профилировщик, классификатор горячих путей, средство исправления GC, детектор N+1, бэтчер, анализатор бандла. Ни один не удержит кухню чистой сам по себе; это делает цикл.

▸Почему это работает

Команды без цикла получают совещания “почему сайт снова медленный?” каждые шесть месяцев, каждое из которых потребляет 5–20 инженерных дней. Команды с циклом поддерживают стабильные метрики год за годом. Разница в общих инженерных затратах невелика — дисциплина просто переносит инвестиции с пожаротушения на CI gates и observability.

Квартал Беа и Свена

Беа приходит в команду, где год назад сервис был быстрым. Теперь p99 — 1,2 с вместо 200 мс. Свен объясняет ей цикл: профиль показывает GC pressure на 18%, N+1 в /orders добавляет 50 запросов на запрос, бандл /dashboard вырос на 800 КБ за шесть месяцев. Никакого единственного кризиса — три отдельных медленных накопления.

Они запускают цикл для каждого bottleneck поочерёдно: исправление аллокации логгера (неделя 1), дедупликация запросов (недели 2–3), code-split бандла (неделя 4). Через месяц p99 — 280 мс. CI gates удерживают работу живой в следующем квартале при поставке фич.

Викторина

Команда применила исправление производительности и выпустила релиз. Через шесть месяцев производительность хуже, чем до исправления. Наиболее вероятная причина?

Расставь шаги по порядку

Упорядочите восемь шагов цикла performance, которые senior-инженер выполняет каждый раз:

1 Заметить симптом — SLO burn, RUM-регрессия, алерт профиля
2 Открыть профиль — определить горячий путь с конкретными числами
3 Классифицировать hotspot: CPU, аллокация, кеш, lock, I/O, syscall, JIT, бандл
4 Спрогнозировать влияние на headline-метрику по закону Амдала
5 Применить только предсказанное изменение; никакого scope creep
6 Повторно профилировать под той же нагрузкой; подтвердить улучшение и локального фрейма, и headline-метрики
7 Добавить CI gate или алерт, чтобы регрессия не могла вернуться незаметно
8 Задокументировать и перейти к следующему bottleneck

Закончи аналогию

Заполните пропуск: performance — это _______ кодовой базы, измеряемая непрерывно, применяемая при каждом коммите, принадлежащая каждому инженеру.

Викторина

Что значит воспринимать performance как 'цикл', а не как 'проект'?

Цикл никогда не заканчивается — он перемещается между слоями. Enforcement — шаг, превращающий разовое исправление в устойчивое свойство.

Вспомните перед уходом

01
Почему разовое исправление производительности имеет период полураспада три-шесть месяцев?
02
Какова роль шага 'enforce', и почему он самый важный из восьми?
03
В сценарии Беа и Свена три отдельных bottleneck накапливались шесть месяцев. Что помешало команде заметить каждый из них по мере появления?

Итог

Performance деградирует по умолчанию. Каждая новая фича, зависимость и деплой добавляют байты, запросы или аллокации незаметно. Разовая оптимизация имеет период полураспада три-шесть месяцев до того, как накопленные изменения отменят улучшения. Цикл performance — observe, profile, classify, predict, fix, verify, enforce, repeat — превращает разовое исправление в устойчивое свойство. Критический шаг — enforcement: CI gates, которые не пропускают PR, вводящие тот же класс регрессии. Команды без цикла получают кризис производительности каждые шесть–восемнадцать месяцев и перестраивают всё с нуля; команды с ним поддерживают стабильные метрики год за годом при затратах пяти–десяти процентов инженерного времени против двадцати–сорока процентов в кризисном режиме. Теперь, когда ты увидишь, что p99 снова медленно растёт после исправления, ты будешь точно знать, какого шага цикла не хватает — и какой gate добавить.

Связанные уроки

опирается на

углубляется в

встречается в289

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.