Базы данных DB · 03 · 04

pg_statistic, ANALYZE и производственная наблюдаемость

Оценки строк планировщика берутся из pg_statistic: MCV-списки, гистограммы, корреляция, n_distinct. ANALYZE поддерживает их свежесть. auto_explain и pg_stat_statements вместе говорят, какие запросы медленные и почему.

DB Middle ◷ 16 min

Уровень

ОсновыJuniorMiddleSenior

Запрос, выполнявшийся за 5 мс вчера, сегодня занимает 4 секунды. В приложении ничего не изменилось. План другой. Причина почти всегда одна: статистика устарела и планировщик сделал другой выбор. Знание того, как Postgres строит и использует статистику, — вот как предотвратить следующий инцидент.

Внутри pg_statistic

Когда план ломается, виновник — почти всегда неверные данные внутри pg_statistic. Зная, что там хранится, ты точно знаешь, где искать и как чинить.

При запуске ANALYZE orders Postgres выборочно сканирует таблицу (по умолчанию 300 × default_statistics_target = 30,000 строк при целевом значении 100) и вычисляет статистику на уровне колонок, хранящуюся в pg_statistic (читается через pg_stats):

Статистика	Что хранит	Используется для
most_common_vals (MCV)	Top-N значений + их частоты	Точная селективность для частых значений
histogram_bounds	Равночастотная гистограмма не-MCV значений	Селективность для диапазонных и равенственных условий на редких значениях
n_distinct	Количество уникальных значений (отрицательное = доля строк)	Оценки кардинальности GROUP BY
correlation	Корреляция физического и логического порядка (−1 до 1)	Оценка стоимости случайного vs последовательного I/O при index scan

Как планировщик использует это для WHERE x = 42:

Есть ли 42 в MCV-списке? Используем его точную частоту напрямую.
Не MCV? Находим бакет гистограммы, содержащий 42, предполагаем равномерное распределение внутри бакета.
Комбинируем с reltuples (счётчик строк в pg_class) для получения оценки количества строк.

Для диапазонных предикатов (x > 100) гистограмма интегрируется по диапазону. Для многоколоночных предикатов планировщик по умолчанию предполагает независимость и перемножает селективности — что неверно для коррелированных колонок (рассматривается в уроке 05).

Чтайте каталог напрямую:

SELECT tablename, attname, n_distinct, most_common_vals, most_common_freqs,
       histogram_bounds, correlation
FROM pg_stats
WHERE tablename = 'orders';

ANALYZE: когда запускать

Autovacuum планирует ANALYZE для каждой таблицы на основе:

autovacuum_analyze_threshold (умолчание 50 строк) +
autovacuum_analyze_scale_factor × reltuples (умолчание 0.1 = 10%)

На таблице из 100M строк autovacuum анализирует только после 10M изменений строк — слишком редко для таблиц с косыми или быстро меняющимися распределениями данных. Операционные исправления:

-- Снизьте scale factor для горячих таблиц:
ALTER TABLE orders SET (autovacuum_analyze_scale_factor = 0.02);

-- Поднимите целевой показатель статистики для косых колонок:
ALTER TABLE orders ALTER COLUMN status SET STATISTICS 1000;
ANALYZE orders;

Стандартный scale factor 10% означает, что таблица из 100M строк проходит 10M изменений между запусками ANALYZE — слишком устаревшая для горячих данных. Снижение scale factor до 0.02 сокращает это до 2M, сохраняя оценки селективности свежими.

Ручной ANALYZE выполняется за секунды даже на таблицах из 100M строк (он делает выборку, а не полное сканирование). Всегда запускайте его:

После массовых вставок или больших UPDATE, сдвигающих распределения
После изменений схемы, добавляющих колонки
В post-deploy хуках перед возобновлением трафика

Опции EXPLAIN для диагностики

Помимо базового плана, несколько опций EXPLAIN необходимы:

FORMAT JSON | XML | YAML | TEXT — JSON для инструментов (explain.depesz.com, explain.dalibo.com, pganalyze)
VERBOSE — добавляет списки выходных колонок для каждого узла
SETTINGS (PG 12+) — печатает не-дефолтные GUC планировщика; диагностирует дрейф окружения между staging и production
WAL (PG 13+) — показывает байты WAL, сгенерированные оператором
GENERIC_PLAN (PG 16+) — планирует параметризованный запрос без примерных значений; необходим для диагностики подготовленных операторов (рассматривается в уроке 06)
SERIALIZE (PG 17+) — включает стоимость сериализации строк для клиента; сокращает разрыв между полным временем EXPLAIN ANALYZE и наблюдаемой клиентом задержкой

auto_explain и pg_stat_statements

Два расширения, которые должны быть на каждом production Postgres:

pg_stat_statements записывает каждый выполненный запрос (нормализованный по параметрам), отслеживая calls, total_exec_time, mean_exec_time, rows и счётчики буферов. Запрос: SELECT query, calls, total_exec_time, mean_exec_time FROM pg_stat_statements ORDER BY total_exec_time DESC LIMIT 20. Эти top-20 по total_exec_time — ваши цели оптимизации — запрос за 2 мс, вызванный 10M раз, важнее запроса за 500 мс, вызванного дважды.

auto_explain автоматически логирует EXPLAIN ANALYZE для любого запроса, превышающего порог длительности:

-- Дополнения к postgresql.conf:
shared_preload_libraries = 'auto_explain'
auto_explain.log_min_duration = '500ms'
auto_explain.log_analyze = true
auto_explain.log_buffers = true
auto_explain.log_format = 'json'
auto_explain.sample_rate = 0.01   -- 1% медленных запросов для ограничения объёма логов

Медленные запросы попадают в логи Postgres с полными планами ANALYZE + BUFFERS, без необходимости воспроизводить их на staging. Вместе они отвечают на вопрос «какие запросы медленные и почему» без инструментирования приложения.

Проследи

1/5

Запрос, выполнявшийся за 5 мс вчера, сегодня занимает 4 секунды. В приложении ничего не изменилось. Диагностируйте.

Step 1 of 5

Шаг 1: подтвердить регрессию.

Locked

Шаг 2: проверить отличия во время планирования.

Locked

Шаг 3: проверить отличия во время исполнения.

Locked

Шаг 4: выявить ловушку подготовленных операторов.

Locked

Шаг 5: стабилизировать.

Расставь шаги по порядку

Упорядочьте диагностические проверки EXPLAIN ANALYZE от наибольшего к наименьшему сигналу:

1 Rows estimated vs rows actual на каждом узле — большой разрыв = устаревшая статистика
2 Узел плана, занимающий наибольшее реальное время — доминирующая стоимость запроса
3 Счётчик loops на внутренней стороне Nested Loop — обнажает недооценку внешних строк
4 Sort Method (in-memory quicksort vs external merge) — помещается ли в work_mem
5 BUFFERS shared hit vs read — состояние кеша и картина I/O
6 Index Cond vs Filter — индекс сужает или только пост-фильтрует
7 Planning Time vs Execution Time — доминирование планирования редко, но реально

Викторина

На таблице из 100M строк с настройками autovacuum по умолчанию, после скольких изменений строк autovacuum запустит ANALYZE?

Викторина

Какой запрос правильно определяет цели медленных запросов для оптимизации с помощью pg_stat_statements?

Устаревший pg_statistic означает устаревшую оценку, которая распространяется в выбор плана. ANALYZE обновляет сэмпл; auto_explain выявляет, когда оценка разошлась с реальностью.

Вспомните перед уходом

01
Опишите, как планировщик Postgres использует pg_statistic для оценки селективности WHERE x = 42.
02
Какая операционная дисциплина поддерживает точность статистики в быстро меняющейся production базе данных?
03
Объясните, что делает auto_explain, как его настроить для production и какова его стоимость.

Итог

Оценки строк планировщика вычисляются из pg_statistic: для каждой колонки ANALYZE хранит список наиболее распространённых значений (MCV, most common values — список самых частых значений с их частотами) с точными частотами, равночастотную гистограмму для остальных, n_distinct для кардинальности GROUP BY и correlation для оценки стоимости индексного сканирования. ANALYZE выборочно сканирует таблицу (30,000 строк по умолчанию) и выполняется за секунды даже на больших таблицах. Autovacuum запускает его после 10% изменений строк на 100M-строчной таблице — слишком редко для горячих данных; настройте autovacuum_analyze_scale_factor = 0.02 на критических таблицах и запускайте ANALYZE вручную в post-deploy хуках. Теперь, когда запрос внезапно регрессирует после массовой загрузки или деплоя, первое, что ты проверяешь — не дрейфнула ли статистика: запусти EXPLAIN ANALYZE, посмотри на rows-estimated vs actual, и если они расходятся — запусти ANALYZE раньше всего остального.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Алгоритмы соединения и каскад ошибок оценки строкmiddle

открывает

углубляется в

встречается в287

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.

Примени это

Примени этот урок в реальном проекте.

Визуализатор планов запросовВставь EXPLAIN (ANALYZE, FORMAT JSON) и отрисуй дерево плана с таймингом по узлам и ошибкой оценки строк, чтобы плохой join был виден сразу.