Базы данных DB · 03 · 01

EXPLAIN и планы выполнения: что решает планировщик и почему

Plan выполнения — это дерево операций, которое Postgres выбирает для запроса. EXPLAIN показывает план; EXPLAIN ANALYZE запускает запрос и показывает реальные тайминги. Rows-estimated vs rows-actual — самое информативное число в выводе.

DB Junior ◷ 12 min

Уровень

ОсновыJuniorMiddleSenior

Уже знаешь этот юнит? Пройди быструю проверку за минуту →

Dashboard-запрос занимает 6 секунд в production. Коллега спрашивает: «ты делал EXPLAIN?». Запускаешь EXPLAIN ANALYZE — и через две секунды видишь Seq Scan on orders ... actual rows=80000000. Один индекс. 200 мс. Вот для чего нужен EXPLAIN. За следующие десять минут ты поймёшь, как читать этот вывод и почему разрыв между estimated и actual rows — это всё.

Что такое план выполнения

SQL декларативен — вы описываете какие строки хотите получить, а не как их извлечь. Планировщик Postgres заполняет этот пробел. Он читает SQL, обращается к pg_statistic, чтобы оценить количество строк для каждого условия, перебирает возможные комбинации типов сканирования и алгоритмов соединения, вычисляет стоимость каждого варианта и выбирает дешевейший. Результат — план — дерево операторов с прикреплёнными к ним оценками строк.

Запрос проходит четыре этапа до возврата первой строки:

Парсинг — текст преобразуется в дерево разбора
Переписывание — применяются правила и представления
Планирование — планировщик строит дешевейшее дерево выполнения
Исполнение — движок выполняет дерево

Единственный этап, который вы настраиваете, — это планирование. Всё остальное автоматично. Вместе эти четыре этапа означают, что каждый SQL-запрос — это двусторонний контракт: вы объявляете что, планировщик решает как — а EXPLAIN — способ проверить это решение до того, как оно обойдётся вам в 8 минут.

Команда	Выполняет запрос?	Показывает
`EXPLAIN`	Нет	Оценку планировщика: стоимости, количество строк, форму плана
`EXPLAIN ANALYZE`	Да	Оценки + реальные тайминги, реальные строки, loops
`EXPLAIN (ANALYZE, BUFFERS)`	Да	Всё вышеперечисленное + счётчики обращений к кешу страниц

Чтение вывода

Простой план выглядит так:

Index Scan using idx_orders_workspace on orders
  (cost=0.43..14.2 rows=42 width=120)
  (actual time=0.08..1.1 rows=42 loops=1)
  Index Cond: (workspace_id = 42)

cost=0.43..14.2 — стоимость запуска (первая строка) и полная стоимость в произвольных единицах. Не миллисекунды. Важны соотношения; абсолютные значения без контекста бессмысленны.
rows=42 — оценка планировщика: сколько строк выдаст этот узел
actual rows=42 — реально выданных строк во время выполнения
loops=1 — сколько раз выполнялся этот узел (важно внутри соединений)

Диагностическое правило: сравнивайте rows (оценка) с actual rows (реальность). Разрыв в 10× — подозрительно. Разрыв в 1000× — вот почему запрос занимает 8 минут вместо 50 мс.

Тот же запрос, три качества оценки. Ошибка в rows не линейна по latency: недооценка в 1000× делает запрос не в 1000× медленнее, а в ~10 000× — потому что плохая оценка переключает планировщик на неверное сканирование и соединение. Эта нелинейность и есть причина, почему разрыв в rows читают первым.

Метафора GPS

EXPLAIN — это предпросмотр маршрута в GPS перед поездкой. EXPLAIN ANALYZE — видеозапись реальной поездки с видеорегистратора. Предпросмотр говорит «маршрут займёт 12 минут» — это оценка по картам. Видеозапись говорит «поездка заняла 47 минут из-за пробок, которых не было на карте». Разрыв между оценкой и реальностью — это именно то место, где вы вмешиваетесь: плохие карты (устаревшая статистика) приводят к плохому выбору маршрута; плохие датчики (нет индекса для условия) делают поездку медленнее, чем обещал маршрут.

Конкретный сценарий: поиск узкого места

Поисковый запрос команды занимает 200 мс на staging и 8 секунд в production. EXPLAIN ANALYZE показывает:

Hash Join  (cost=2400..55000 rows=50000)
            (actual time=7800..8050 rows=42)
  Hash Batches: 64  Memory Usage: 2.1GB

Batches: 64 означает, что хеш-таблица 64 раза сбрасывалась на диск — результат того, что work_mem слишком мал для реального размера соединения. Исправление: SET work_mem = '64MB'. Тот же запрос — 220 мс. Один EXPLAIN, одно изменение конфигурации.

▸Почему это работает

EXPLAIN ANALYZE реально выполняет запрос. Для SELECT это всегда безопасно. Для UPDATE или DELETE оберните в транзакцию и откатите: BEGIN; EXPLAIN ANALYZE DELETE ...; ROLLBACK;. Запрос выполнится (вы увидите реальные тайминги), но изменения будут отменены.

Расставь шаги по порядку

Упорядочьте шаги, которые разработчик должен выполнить при неожиданно медленном запросе:

1 Воспроизвести медлительность с репрезентативным запросом и параметрами
2 Запустить EXPLAIN ANALYZE (в транзакции, если запрос модифицирует данные)
3 Найти узел плана, занимающий наибольшее реальное время
4 Сравнить rows estimated vs actual на каждом узле — большой разрыв означает устаревшую статистику
5 Выбрать исправление: ANALYZE таблицы, добавить или изменить индекс, переписать запрос
6 Применить исправление и повторно запустить EXPLAIN ANALYZE для подтверждения улучшения
7 Добавить регрессионный тест, чтобы медленный запрос не вернулся

Викторина

В чём разница между EXPLAIN и EXPLAIN ANALYZE?

Викторина

В выводе EXPLAIN ANALYZE вы видите `rows=10 ... actual rows=1240000`. Что это означает?

Закончи аналогию

Заполните пропуск: EXPLAIN относится к SQL-запросу так же, как ________ к путешествию — запланированный маршрут, продолжительности и пересадки, распечатанные до реальной поездки.

Настраивается только стадия Plan — планировщик оценивает стоимость кандидатных деревьев по статистике и выбирает дешевейшее. EXPLAIN печатает это дерево; EXPLAIN ANALYZE ещё и выполняет Execute и сообщает реальные тайминги.

Вспомните перед уходом

01
Двумя предложениями: что такое план выполнения и зачем он нужен Postgres?
02
Что означают 'actual rows' vs 'rows' в выводе EXPLAIN ANALYZE и почему большое расхождение важно?
03
Когда НЕ нужно запускать EXPLAIN ANALYZE на запросе и как это обойти?

Итог

План выполнения — это дерево операций, которое Postgres строит для ответа на SQL-запрос, выбирая среди типов сканирования, алгоритмов соединения и стратегий агрегации на основе оценок стоимости из табличной статистики. EXPLAIN печатает план без выполнения; EXPLAIN ANALYZE выполняет запрос и добавляет реальные тайминги, реальные счётчики строк и реальные loops. Самое диагностически ценное число — разрыв между rows (оценка) и actual rows (реальность) на каждом узле: недооценка в 1000× распространяется вверх и делает неверным каждый выбор соединения и сортировки выше неё. Теперь, когда встретишь медленный запрос, первый шаг — EXPLAIN ANALYZE: найди узел, где оценка расходится с реальностью, — там и кроется причина.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Что такое индекс и как он ускоряет запросыjunior

открывает

углубляется в

встречается в177

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.

Примени это

Примени этот урок в реальном проекте.

Визуализатор планов запросовВставь EXPLAIN (ANALYZE, FORMAT JSON) и отрисуй дерево плана с таймингом по узлам и ошибкой оценки строк, чтобы плохой join был виден сразу.Краш-устойчивое key-value хранилище с WALСобери крошечное дисковое KV-хранилище, которое переживает kill -9 на середине записи, дописывая в write-ahead log до изменения основного файла.