Наблюдаемость OBS · 07 · 03

Типы профилей: CPU, память, off-CPU, mutex — какой когда брать

CPU profiling видит только работающий код; off-CPU, block и mutex профили покрывают 96% запроса, проведённые в ожидании — для полной диагностики нужны все четыре.

OBS Middle ◷ 15 min

Уровень

ОсновыJuniorMiddleSenior

Span занимает 500 мс. Открываешь CPU-профиль — сервис использовал 20 мс CPU. Куда ушли остальные 480 мс? CPU profiling слеп к ожиданию. Если остановиться здесь — ответ не найти никогда.

CPU профили: что видят и что упускают

CPU profiling сэмплирует call stack, пока поток на CPU — выполняет инструкции. Запрос, проведший 20 мс в вычислениях и 480 мс ожидая DB-запроса, покажет 20 мс в CPU-профиле, а 480 мс останутся невидимыми.

CPU-профиль видит только 20 мс вычислений (4%); 480 мс off-CPU ожидания (96%) для него невидимы. Эта слепая зона — причина существования off-CPU, block и mutex профилей.

Это важнейшее ограничение profiling: CPU-профили видят только функции, потребляющие процессор. Всё, чего ждёт программа — I/O, сеть, локи, планировщик — находится off-CPU и невидимо для CPU-profiler’а.

Memory и allocation профили

Heap profiler’ы (профилировщики кучи) сэмплируют аллокации, а не CPU. Heap profile в Go сэмплирует одну аллокацию на ~512 КиБ (Poisson-распределение) и записывает стек при каждом сэмпле. Результат — flame graph, где ширина это выделенные байты, а не CPU-время. Это находит memory-горячки: функция, выделяющая 100 МБ/с, выглядит широкой.

Обнаружение memory leak с heap profile:

Взять heap профиль.
Подождать 30-60 минут.
Взять ещё один heap профиль.
Сравнить (go tool pprof -base baseline.heap current.heap).
Функции, чья аллокация выросла, — источник утечки.

Вместе эти шаги дают снимок живой памяти «до и после»; без baseline (шаг 1) нет точки отсчёта и растущая аллокация невидима в одиночном профиле.

Allocation профили захватывают короткоживущие аллокации, которые GC возвращает; heap профили — снимки живой памяти. JVM-эквиваленты: async-profiler с -e alloc, JFR allocation events. Python: tracemalloc, memray.

Off-CPU профили

Работа Brendan Gregg по off-CPU analysis (2013) определила пробел: CPU-профили пропускают всё, чего ждёт процесс. eBPF-реализации цепляются за события переключения контекста kernel-планировщика. Когда планировщик снимает поток с CPU (блокировка на I/O, sleep, ожидание лока), kernel захватывает стек потока. Этот стек — место, где началось ожидание. Когда поток возвращается, прошедшее время атрибутируется этому стеку.

Off-CPU flame graph показывает время ожидания точно так же, как CPU flame graph показывает время выполнения. Для I/O-bound сервиса off-CPU профиль — единственный, который хоть что-то объясняет: CPU-профиль просто говорит «сервис простаивал».

Block и mutex профили

Block profile (Go: runtime.SetBlockProfileRate): время ожидания на sync-примитивах — каналах, condition variable’ах, WaitGroup’ах. Более фокусированный, чем off-CPU, так как нацелен на language-level синхронизацию.

Mutex profile (runtime.SetMutexProfileFraction): конкуренция за локи конкретно. Сообщает, какой код держал лок, пока другие его ждали, — атрибутировано в момент unlock’а.

CPU профиль on-CPU время — куда уходят циклы?

Wall-clock профиль прошедшее время, вкл. ожидание — куда уходят часы?

Heap / allocation профиль выделенные байты — куда уходит память?

Off-CPU / block / mutex профиль ожидание лока + I/O — куда уходит ожидание?

Каждый профиль отвечает на свой вопрос «куда уходит X?», атрибутируя свой ресурс: циклы CPU, прошедшее время, выделенные байты или время в блокировке off-CPU.

Тип профиля	Ширина означает	Когда брать
CPU	Потреблённое CPU-время	Высокое CPU, медленный ответ
Heap / Allocation	Выделенные байты	GC pressure, OOM, рост памяти
Off-CPU	Время ожидания (все причины)	Медленный запрос, но низкий CPU
Block	Время на sync-примитивах	Подозреваемая конкуренция Go goroutine
Mutex	Время конкуренции за лок	Подозреваемая высокая конкуренция за лок

Выбор профиля по соотношению CPU/wall-time

Диагностический shortcut: смотри CPU-время vs wall-clock-время медленного запроса.

CPU/wall ≈ 100%: вычислительное узкое место — CPU профиль.
CPU/wall < 30%: узкое место off-CPU — off-CPU/block профиль или trace span’ы.
Память растёт стабильно: heap/allocation профиль.
Потоки конкурируют за лок: mutex профиль.

Java-сервис с GC-thrashing — классический allocation-профиль случай. Симптом: высокая скорость аллокации при частых old-gen GC. Allocation flame graph покажет самый широкий frame как функцию, аллоцирующую с наибольшей скоростью — часто string concatenation в logging-коде без параметризованного форматирования.

Викторина

Запрос проводит 50 мс на CPU и 450 мс ожидая DB-запрос. Какой тип профиля покажет ожидание БД?

Викторина

Java-сервис OOM'ится на определённых endpoint'ах. CPU профиль выглядит нормально. Какой тип профиля взять?

Вспомните перед уходом

01
Почему heap profiler в Go сэмплирует одну аллокацию на ~512 КиБ вместо записи каждой?
02
Объясни, почему CPU flame graph недостаточен для диагностики I/O-bound сервиса.
03
Опиши процедуру обнаружения memory leak с heap профилями.

Итог

Четыре типа профилей покрывают полный жизненный цикл запроса: CPU (что выполняется), heap или allocation (что аллоцируется), off-CPU (что ждёт I/O или планировщика), block или mutex (что ждёт локов). CPU profiling видит только код, активно находящийся на процессоре — запрос, ждущий 480 мс DB-запрос, покажет в CPU профиле только 20 мс вычислений. Соотношение CPU/wall-time — диагностический сигнал: менее 30% означает, что узкое место off-CPU. Heap profiler в Go сэмплирует при 1 на 512 КиБ для affordable always-on memory profiling. Комбинация всех четырёх даёт полную картину; использование только CPU profiling для I/O-bound сервиса гарантирует нахождение не того узкого места. Теперь, когда видишь медленный запрос с низким CPU, знаешь рефлекс: сначала смотри на соотношение CPU/wall-time, затем тянись за off-CPU или block профилем — а не за дополнительными логами.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Sampling vs instrumentation profiling: почему 99 Гц побеждает в productionmiddle

открывает

Continuous profiling: always-on flame graphs с eBPF и корреляцией trace-idmiddle

углубляется в

встречается в170

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.