Базы данных DB · 03 · 07

Производственные режимы отказа и стабильность планов

Восемь реальных режимов отказа — устаревшая статистика, ловушка общего плана, коррелированные колонки, неверная настройка SSD, накладные расходы JIT, сброс work_mem, дрейф random_page_cost и перескоки — плюс стратегия обнаружения и предотвращения регрессий планов между деплоями.

DB Senior ◷ 18 min

Уровень

ОсновыJuniorMiddleSenior

Dashboard заказов B2B SaaS-продукта деградирует каждое воскресенье утром. Ко вторнику всё в порядке. Паттерн: пакетный импорт запускается в воскресенье ночью, сдвигая распределения данных; autovacuum не успевает запустить ANALYZE к понедельнику; планировщик выбирает Nested Loop с недооценкой соединения в 1000×. ANALYZE в хуке после пакетной обработки навсегда устраняет инцидент.

Восемь реальных производственных режимов отказа

Режим отказа	Симптом	Исправление
Каскад устаревшей статистики	Внезапное замедление после массовой вставки; rows-estimated резко отличается от actual	ANALYZE в post-batch хуке; снизить autovacuum_analyze_scale_factor
Ловушка общего плана	Высокое stddev_exec_time; бимодальная задержка на подготовленном операторе	plan_cache_mode = force_custom_plan для роли
Взрыв коррелированных колонок	Nested Loop с 1M итераций; rows-estimated ~1000× ниже	CREATE STATISTICS (dependencies, mcv); ANALYZE
Неверная настройка random_page_cost (SSD)	Планировщик выбирает Seq Scan там, где должен был бы Index Scan; запросы читают целые таблицы	SET random_page_cost = 1.1 в postgresql.conf
Накладные расходы JIT на OLTP	Короткие запросы медленнее ожидаемого; время компиляции JIT превышает экономию выполнения	Поднять jit_above_cost до 500000 или SET jit = off для OLTP-роли
Сброс work_mem	Sort Method: external merge; Hash Batches > 1; медленные запросы при соединениях/сортировках	SET work_mem = ‘32MB’ на сессию; не глобально без проверки бюджета памяти
Слишком малый effective_cache_size	Планировщик предпочитает Seq Scan даже на SSD с большой RAM, потому что предполагает холодные данные	SET effective_cache_size = ‘24GB’ (~75% общей RAM)
Перескоки плана при смене фазы нагрузки	Один и тот же запрос получает разные планы в разное время; autovacuum в конце концов восстанавливает баланс	pg_hint_plan для критических путей; иначе принять вариативность и алертить на неё

Стабильность планов между деплоями

Наиболее распространённая операционная боль: деплой с новыми таблицами, новыми данными или другими объёмами вызывает регрессии планов на неизменённых запросах.

Пятиуровневая стратегия:

Уровень 1 — настройка константных стоимостей (один раз): Установите random_page_cost = 1.1, effective_cache_size в 75% RAM, work_mem = 16-32MB. Проверьте через EXPLAIN на top-20 запросах. Это обеспечивает правильную ментальную модель вашего железа у планировщика.

Уровень 2 — свежесть статистики: Снизьте autovacuum_analyze_scale_factor = 0.02 на горячих таблицах. Добавьте ANALYZE critical_tables в каждый deploy-хук. Создайте объекты CREATE STATISTICS для коррелированных групп колонок, выявленных через EXPLAIN.

Уровень 3 — кеш планов для косых нагрузок: Установите plan_cache_mode = 'force_custom_plan' на ролях, выполняющих параметризованные запросы с косыми распределениями параметров (выявлены через высокое stddev_exec_time).

Уровень 4 — наблюдаемость: Настройте auto_explain (log_min_duration = 500мс, log_analyze = true, log_buffers = true, log_format = json, sample_rate = 0.05). Архивируйте pg_stat_statements еженедельно (reset + сохранить в файл/S3).

Уровень 5 — процедура деплоя: Перед каждым деплоем делайте снимок pg_stat_statements + EXPLAIN top-20 запросов в JSON. После деплоя: ANALYZE критических таблиц, подождать 5 минут, повторный снимок. Diff ключевых метрик. Флажить любой запрос, чья структура плана изменилась или чей mean_exec_time вырос более чем на 50%.

Все пять уровней вместе образуют глубокую защиту: уровень 1 даёт планировщику точную модель железа; уровни 2–3 поддерживают точность входных данных; уровень 4 ловит регрессии раньше, чем о них сообщат пользователи; уровень 5 привязывает стабильность к циклу деплоя, а не к удаче.

Проследи

1/5

Старший инженер настраивает Postgres 16 OLTP базу данных на NVMe SSD (32 ГБ RAM, 500 ГБ БД, ~5k QPS), задеплоенную с настройками планировщика по умолчанию.

Step 1 of 5

Шаг 1: базовая линия.

Locked

Шаг 2: настройка стоимостей для SSD.

Locked

Шаг 3: обновление и расширение статистики.

Locked

Шаг 4: память и JIT.

Locked

Шаг 5: наблюдаемость.

Выбери лучший вариант

Команде нужно стабилизировать планы выполнения между деплоями для top-20 OLTP запросов. Выберите стратегию.

Те же четыре стратегии, что в матрице выше, размещённые по оси адаптивность против жёсткой фиксации: по умолчанию верна только статистика-прежде-всего — чем сильнее фиксируешь планировщик, тем уже случай, где это правильно.

Викторина

Пакетное задание вставляет 20M строк в таблицу orders каждое воскресенье ночью. Каждое понедельное утро запросы, быстрые в пятницу, медленные. Ко вторнику снова нормально. Какова корневая причина и исправление?

Викторина

Запрос показывает `Sort Method: external merge Disk: 450MB` в EXPLAIN ANALYZE. Каковы интерпретация и исправление?

Слой 1 - Константы стоимости random_page_cost=1.1, effective_cache_size

Слой 2 - Свежесть статистики ANALYZE на деплой, CREATE STATISTICS

Слой 3 - Кэш планов force_custom_plan для косых параметров

Слой 4 - Наблюдаемость auto_explain, pg_stat_statements

Слой 5 - Процедура деплоя снимок, ANALYZE, diff планов

Каждый слой предотвращает класс регрессий; вместе они держат планы стабильными между деплоями. Хинты (pg_hint_plan) вне стека - последнее средство для 1-3 запросов, которые не должны деградировать никогда.

Вспомните перед уходом

01
Объясните, почему разрыв между rows-estimated и rows-actual на каждом узле плана является единственным наиболее важным диагностическим показателем в Postgres.
02
Спроектируйте стратегию стабильности планов для B2B SaaS Postgres 16 базы данных на NVMe SSD (32 ГБ RAM, 500 ГБ БД, 5k OLTP QPS). Top-20 запросов выявлены через pg_stat_statements. 3 из 20 — тяжёлые агрегации.

Итог

Восемь производственных режимов отказа покрывают большинство регрессий планов Postgres: устаревшая статистика после массовых операций (ANALYZE в post-batch хуке), ловушка общего плана на подготовленных операторах с косыми параметрами (plan_cache_mode = force_custom_plan), ошибки оценки строк для коррелированных колонок (CREATE STATISTICS dependencies + mcv), неверная настройка SSD (random_page_cost = 1.1), накладные расходы JIT на OLTP (поднять jit_above_cost), сброс work_mem (сортировка/хеш сбрасываются на диск — исправить per-session), несоответствие effective_cache_size и перескоки планов при смене фазы данных. Операционная стратегия имеет пять уровней: откалиброванные под SSD константные стоимости, агрессивное обслуживание статистики, избирательные переопределения plan_cache_mode, наблюдаемость auto_explain + pg_stat_statements и процедура деплоя, сравнивающая планы и метрики до и после каждого деплоя. Теперь, когда запрос регрессирует после деплоя, у тебя есть чеклист: дрейфнула ли статистика (запусти ANALYZE), переключился ли подготовленный оператор на общий план (проверь stddev), вышли ли коррелированные колонки из-под оценки (добавь CREATE STATISTICS)? Пройди по восьми режимам по порядку — причину найдёшь.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Кеш планов, настройка константных стоимостей и внутренности планировщикаsenior

встречается в287

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.