Производительность PERF · 02 · 02

Пять форм hotspot''''а: CPU, аллокации, кэш, лок, syscall

У каждой из пяти категорий hotspot''''а есть характерная сигнатура в профиле и соответствующее семейство правок. Выбрать неверное семейство — значит потратить усилия впустую.

PERF Middle ◷ 18 min

Уровень

ОсновыJuniorMiddleSenior

Два широких leaf’а во flame graph на первый взгляд выглядят одинаково. Один требует лучшего алгоритма. Второй требует переиспользования буферов. Применить лучший алгоритм к allocation-bound-пути — значит получить 1,05x вместо предсказанных 3x. Два часа работы ради пяти процентов. Категория определяет toolbox.

Пять категорий

К концу урока ты сможешь классифицировать любой горячий leaf за пять минут и выбрать семейство правок, которое реально двигает метрику.

Широкий leaf подходит под одну из пяти категорий. Прочтение второго слоя профиля — не только «какая функция», но «что функция делает» — даёт классификацию.

1. CPU-bound алгоритмический

Функция исполняет много инструкций. CPU исполняет алгоритм.

Сигнатура: большой self-time, узкие children, высокий instructions-per-second, IPC в диапазоне 2–4. В CPU flame graph leaf занимает настоящую ширину без GC или kernel-фреймов рядом.

Семейство правок: лучший алгоритм, векторизация (SIMD), inline-pragma, специализация hot-path’а для частого случая.

2. Allocation-bound

Функция (или её caller) так много аллоцирует, что сборщик мусора доминирует над wall-time.

Сигнатура: runtime.scanobject, gc, mallocgc или malloc появляются широкими рядом с горячим leaf’ом. CPU-профиль винит GC-machinery, не application-логику. Переключись на allocation-профиль, чтобы найти аллокатор на стороне приложения.

Семейство правок: пулинг объектов, переиспользование буферов (sync.Pool), in-place мутация, struct-of-arrays, предварительное выделение контейнеров нужного размера.

3. Cache-bound

Функция трогает память по паттерну, который аппаратный prefetcher не может предсказать. CPU стопорится, ожидая данные из RAM вместо L1/L2.

Сигнатура: низкий IPC (<1), высокий cache-miss rate (15%+), низкий instructions-per-second несмотря на широкий CPU-фрейм. Аппаратные счётчики подтверждают тип stall (L3 miss, DRAM stall).

Семейство правок: смена data-layout’а (contiguous arrays вместо pointer-chased linked lists, struct-of-arrays вместо array-of-structs), смена порядка итерации для улучшения spatial locality, prefetch-подсказки.

4. Lock-bound

Функция тратит время в ожидании mutex’а или канала.

Сигнатура: широкая в mutex/block/off-CPU профиле, узкая в CPU-профиле. Функция off-CPU, не работает. Wall-clock time высокий; CPU time низкий.

Семейство правок: lock-free структуры данных, более гранулярные локи, шардированное состояние, read-write локи для read-heavy-путей, eventual consistency для устранения shared state.

5. Syscall-bound

Функция тратит время в ядре — чтение, запись, сетевой I/O или ожидание на futex.

Сигнатура: kernel-фреймы (read, write, recv, futex) видны во flame graph с поддержкой kernel-символов. Доминирует off-CPU время. Может проявляться как частые узкие kernel-entry вместо одного широкого leaf’а.

Семейство правок: батчинг syscall’ов (один writev вместо десяти write), большие I/O-буферы, io_uring для async kernel I/O, memory-mapped I/O, полное устранение syscall’а там, где данные могут оставаться в user space.

Категория	Сигнатура в профиле	Семейство правок
CPU-bound	Высокий self-time, IPC 2–4	Лучший алгоритм, SIMD, специализация
Allocation-bound	Широкие GC-фреймы (mallocgc, scanobject)	Пулинг, переиспользование буферов, SoA
Cache-bound	IPC <1, высокий cache-miss rate	Смена data layout, contiguous arrays
Lock-bound	Широкий off-CPU, узкий on-CPU	Lock-free, шардирование, мелкие локи
Syscall-bound	Kernel-фреймы во flame graph	Батчинг syscall’ов, io_uring, буферы

Числа диагностики hot path'ов

Типовой IPC compute-bound кода: 2–4 инстр./цикл
Типовой IPC memory-bound кода: 0,3–0,8 инстр./цикл
Штраф L1 cache miss: ~5 циклов
Штраф L3 cache miss → DRAM: ~150–300 циклов
Штраф branch mispredict: ~15–25 циклов
Цена одного deopt + recompile (V8): ~10–100 мкс
Round-trip syscall: ~1–5 мкс
futex lock contention wakeup: ~5–50 мкс

Классификация hotspot’а на практике

Классифицируй hotspot до выбора правки

1/3

Один hotspot, те же усилия — неверное семейство даёт ~5%, верное — 4,7x локально и сжимает GC. Сначала диагностируй категорию, потом бери toolbox.

Викторина

Функция показывает IPC 0,4 и cache-miss rate 15%. Какова категория и какое семейство правок она предполагает?

Викторина

После правки локальный hotspot сжался на 60%, но p99 сервиса не изменился. Что скорее всего это означает?

1. CPU-bound большой self-time, IPC 2–4

2. Allocation-bound широкие GC-фреймы (mallocgc)

3. Cache-bound IPC <1, высокий cache-miss

4. Lock-bound широкий off-CPU, узкий on-CPU

5. Syscall-bound kernel-фреймы (read/futex)

Широкий leaf подходит под одну из пяти категорий — сигнатура в профиле называет какую, а категория выбирает семейство правок.

Вспомните перед уходом

01
Разбери пять категорий hot path'ов с одним характерным признаком каждой в профиле и соответствующим семейством правок.
02
Go API показывает runtime.mallocgc на 18% и runtime.scanobject на 14% в CPU-профиле. Какова категория и каков следующий диагностический шаг?

Итог

Пять категорий hotspot’ов — CPU, аллокации, кэш, лок, syscall — у каждой чёткая сигнатура в профиле: IPC и self-time для CPU-bound, GC-фреймы для allocation-bound, низкий IPC с высоким cache-miss для cache-bound, широкий off-CPU но узкий on-CPU для lock-bound, kernel-фреймы для syscall-bound. Диагноз занимает минуты (снять нужный вторичный профиль, прочитать IPC или miss-rate); семейство правок следует механически. Выбрать неверное семейство — значит потратить всю работу впустую. Следующий урок разбирает, как читать parent и child chains, чтобы локализовать правку на верном уровне дерева вызовов. Теперь, когда увидишь GC-фреймы, широко поднимающиеся рядом с горячим leaf’ом, — тянись к allocation profile, прежде чем трогать хоть строчку application-кода.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Что делает путь горячим: симптом против причиныjunior

открывает

углубляется в

встречается в162

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.