Базы данных DB · 06 · 07

Таксономия сбоев миграций и дисциплина продакшна

Девять именованных режимов отказа — заморозка очереди блокировок, INVALID-индекс, WAL-наводнение, дрейф схемы — каждый с сигналом обнаружения и устойчивым исправлением.

DB Senior ◷ 14 min

Уровень

ОсновыJuniorMiddleSenior

Шесть месяцев после внедрения pipeline миграций у команды не было инцидентов с очередью блокировок. Затем обновление бэкфила генерирует 40 ГБ WAL за десять минут — лаг репликации достигает 120 секунд, чтения из standby устаревают, и две read-реплики возвращают строки, противоречащие друг другу. Миграция прошла нормально; вокруг неё упала база.

Девять режимов отказа миграций

Старшие инженеры не просто знают, что миграции могут ломаться — они называют режим отказа, читают сигнал и применяют нужный фикс раньше, чем инцидент разрастается. Таблица ниже — это рабочий ментальный фреймворк.

Режим	Сигнал	Устойчивое исправление
(a) Заморозка очереди блокировок	Таблица заморожена, pool исчерпан, 503	lock_timeout + повторы (урок 03)
(b) INVALID-индекс	pg_indexes indisvalid = false после деплоя	DROP INDEX CONCURRENTLY + повтор; алерт на indisvalid
(c) Дедлок миграции	ERROR: deadlock detected в логе миграции	Сериализация через advisory lock; никогда не запускать параллельные миграции на связанных таблицах
(d) Уничтожение данных при откате	Потеря данных обнаружена после down-миграции	Никогда не использовать down-миграции в продакшне; использовать прямые исправления
(e) Дрейф схемы на репликах	Запросы к standby падают; метрика лага репликации растёт	Блокировать деплой кода до почти нулевого лага реплик; использовать replica-aware инструменты
(f) WAL-наводнение бэкфила	Скорость генерации WAL растёт; лаг реплик увеличивается; диск заполняется	Пакетные UPDATE по 1к–10к строк; pg_sleep между пакетами; мониторинг скорости WAL
(g) Скрытая перезапись из-за волатильного дефолта	Миграция заняла минуты; таблица неожиданно перезаписана	Squawk ловит `DEFAULT now()` в CI; константный дефолт + обновление после миграции
(h) NOT NULL без бэкфила	ALTER COLUMN SET NOT NULL падает при применении	Сначала бэкфил; использовать паттерн NOT VALID + VALIDATE (урок 04)
(i) RENAME во время rolling deploy	Старые поды: ошибки column does not exist	Expand-contract вместо одношагового переименования (урок 05)

WAL-наводнение бэкфила подробно

Наивный бэкфил запускает один большой UPDATE:

-- НИКОГДА не делать этого на большой таблице:
UPDATE users SET handle = username WHERE handle IS NULL;

На 100 млн строк это генерирует запись WAL (Write-Ahead Log — журнал упреждающей записи, куда Postgres фиксирует каждое изменение до записи в heap) для каждой обновлённой строки — потенциально 20–50 ГБ WAL за минуты. Реплики должны потребить этот WAL перед обслуживанием чтений; лаг репликации вырастает до минут и более. В это окно standby read-реплики возвращают устаревшие данные. Если лаг превышает max_standby_streaming_delay, Postgres отменяет конфликтующие запросы на standby.

Устойчивое исправление: пакеты по 1к–10к строк с пространством для дыхания:

DO $$
DECLARE
  batch INT;
BEGIN
  LOOP
    UPDATE users SET handle = username
    WHERE handle IS NULL
      AND ctid IN (
        SELECT ctid FROM users WHERE handle IS NULL LIMIT 5000
      );
    GET DIAGNOSTICS batch = ROW_COUNT;
    EXIT WHEN batch = 0;
    PERFORM pg_sleep(0.1);
  END LOOP;
END $$;

Мониторьте SELECT * FROM pg_stat_replication — следите, чтобы sent_lsn - replay_lsn оставалось около нуля во время бэкфила.

Одна задача, два радиуса поражения: один большой UPDATE наводняет WAL и отстаёт реплики; пакеты с pg_sleep ограничивают WAL на транзакцию и держат лаг около нуля.

Дрейф схемы на репликах

Миграция, применённая на primary, распространяется на реплики через потоковую репликацию. Лаг репликации (нормальный диапазон: менее 1 с; под нагрузкой: 5–30 с) означает, что реплики могут видеть старую схему секунды после коммита миграции. Если код деплоится до нагона репликации:

Read-реплики обслуживают запросы к старой схеме.
Новый код, ожидающий новую колонку, получает NULL или ошибки от standby-чтений.

Устойчивое исправление: блокировать раскатку кода до приближения лага репликации к нулю. Мониторьте через pg_stat_replication.replay_lag на primary. В pre-deploy проверках большинства инструментов миграций включён запрос к replica-lag.

Squawk CI и стратегическая позиция по миграциям

Squawk (Linux Foundation) парсит SQL миграции и предупреждает или выдаёт ошибки на небезопасных паттернах:

ADD COLUMN with volatile DEFAULT → ошибка
ALTER COLUMN TYPE без проверки совместимости типов → ошибка
CREATE INDEX без CONCURRENTLY → ошибка
RENAME COLUMN / TABLE → предупреждение
DROP COLUMN без подтверждения предварительного деплоя кода → предупреждение

Запускайте Squawk на каждом PR, затрагивающем migrations/**. Стоимость: менее 30 с на PR с миграцией. Польза: ловит наиболее распространённые режимы отказа до слияния.

Стратегическая позиция: относитесь к коду миграций с той же дисциплиной, что к коду приложения — PR-ревью, CI-lint, деплой на стейджинг на данных продакшн-размера, запись в runbook, наблюдаемость по времени выполнения и получению блокировки. Старшие команды выпускают ломающие изменения регулярно; разница в том, что каждое изменение спланировано, прочёсано линтером, наблюдаемо и поддаёт прямому откату.

Целевые показатели наблюдаемости миграций

Порог алерта: повторы миграции: Больше 3 — страницовать on-call
Порог алерта: INVALID-индекс после деплоя: Любой — страницовать
Порог алерта: длительность миграции: Больше 30 с — предупредить (перезапись?)
Порог алерта: лаг репликации при бэкфиле: Больше 10 с — замедлить пакеты
Время выполнения Squawk CI: Менее 30 с на PR с миграцией
Изменения схемы в продакшне (зрелые команды): Ежедневно

▸Почему это работает

Почему Postgres использует WAL для реплик, а не просто копирует изменённые строки? WAL — источник истины для восстановления после сбоя и точечного восстановления. Каждое изменение записывается как запись WAL до применения к heap. Потоковая репликация просто читает WAL и воспроизводит его на standby. Это означает, что операции бэкфила, затрагивающие миллионы строк, генерируют миллионы записей WAL — нет способа подавить генерацию WAL для DML. Пакетирование держит объём WAL управляемым, ограничивая число строк, изменяемых за транзакцию.

Викторина

Большой единственный UPDATE-бэкфил генерирует 40 ГБ WAL за минуты. Какой первый наблюдаемый симптом в схеме primary + 2 реплики?

Викторина

Squawk запускается в CI и обнаруживает `CREATE INDEX ON orders(user_id)` (без CONCURRENTLY). Какой правильный ответ?

Викторина

Миграция применяется на primary. Лаг репликации сейчас 15 секунд. Что происходит при немедленном запуске деплоя кода?

Верхняя цепочка: один большой UPDATE наводняет WAL, реплики отстают, чтения со standby устаревают. Нижняя цепочка: разбиение на пакеты с pg_sleep ограничивает WAL на транзакцию, поэтому реплики не отстают.

Вспомните перед уходом

01
Почему большой однооператорный UPDATE-бэкфил наводняет WAL и какова рекомендация по размеру пакета?
02
Что такое дрейф схемы на репликах и как блокировка деплоя кода на лаге репликации предотвращает его?
03
Назовите четыре вещи, которые Squawk проверяет в CI, и объясните, почему каждая небезопасна без проверки.

Итог

Старшая дисциплина миграций называет девять режимов отказа и строит наблюдаемость для каждого. Заморозка очереди блокировок (режим a) — наиболее частый — исправление: lock_timeout + повторы. INVALID-индекс (b) обнаруживается мониторингом indisvalid после деплоя — исправление: DROP INDEX CONCURRENTLY + повтор. WAL-наводнение бэкфила (f) вызывает рост лага репликации — исправление: пакеты по 1к–10к строк с pg_sleep. Дрейф схемы на репликах (e) вызывает устаревшие чтения после быстро распространяющегося DDL — исправление: блокировать деплой кода до почти нулевого лага репликации. Squawk CI ловит небезопасный DDL во время PR: волатильные дефолты, неконкурентные индексы, переименования и изменения типа без проверки совместимости. Зрелые команды выпускают изменения схемы ежедневно, потому что их инструменты делают безопасность наименее затратным путём, а не исключительной дисциплиной. Теперь, когда на дежурстве получишь инцидент с миграцией, пройдись по девяти именам: какой режим, какой сигнал, какое устойчивое исправление — не только на эту ночь, но чтобы оно больше не страницовало тебя.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Advisory-блокировки, инструменты миграций и координация деплояsenior

встречается в287

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.