Базы данных DB · 07 · 07

Онлайн-решардинг, 2PC и операционная стоимость шардирования

Онлайн-ребалансировка Citus 11.1+ использует логическую репликацию для суб-секундных пауз при перемещении шарда. Двухфазный commit необходим для кросс-шард транзакций, но несёт риск зависших транзакций. Каждая операционная задача умножается на число шардов.

DB Senior ◷ 14 min

Уровень

ОсновыJuniorMiddleSenior

Кластеру Citus нужно добавить воркер-узел для увеличения мощности. Старый подход требовал окна технического обслуживания: остановить записи, скопировать данные, перезапустить. Citus 11.1 изменил это онлайн-ребалансировщиком, перемещающим шарды пока кластер полностью работает — используя тот же механизм логической репликации, что Postgres использует для обновлений.

Онлайн-решардинг: как это работает

Citus 11.1 (сентябрь 2022) представил non-disruptive онлайн-решардинг. Механизм:

1. Запустить ребалансировщик: SELECT citus_rebalance_start();
2. Планировщик решает: какие шарды перемещаются с воркера A на воркер B для балансировки
3. Для каждого перемещаемого шарда:
   a. Создать шард на целевом воркере (пустой)
   b. Запустить слот логической репликации на источнике для строк этого шарда
   c. Логическая репликация копирует существующие строки на цель, затем стримит изменения
   d. Когда лаг близок к нулю: приостановить записи на шард (~суб-секунда)
   e. Атомарно обновить метаданные карты шардов: шард теперь на цели
   f. Удалить исходный шард
   g. Возобновить записи — теперь маршрутизируются на цель
4. Начать следующий шард (конвейер параллельных перемещений, настраиваемый concurrency)

Профиль производительности:

Пауза записи на шард: менее 1 секунды
Общее время ребалансировки: масштабируется с объёмом данных (~10–100 МБ/с пропускная способность сети)
Влияние на приложение: краткая задержка соединения во время паузы на шард; прозрачно ретраится координатором

Ребалансировщик идемпотентен и возобновляем — если он крашнется в середине перемещения, следующий citus_rebalance_start() продолжит с того места, где остановился, используя состояние pg_stat_subscription.

Опытные команды репетируют ребалансировщик на стейджинге прежде чем запускать в продакшне. Первый запуск не должен быть аварийным.

Распределённые транзакции и 2PC

Транзакция, затрагивающая строки на нескольких шардах, требует двухфазного commit (2PC):

-- Один шард: безопасно, обычная транзакция Postgres
BEGIN;
UPDATE orders SET status = 'shipped' WHERE tenant_id = 42 AND order_id = 99;
UPDATE inventory SET qty = qty - 1 WHERE tenant_id = 42 AND sku = 'ABC';
COMMIT;
-- Обе таблицы ко-локированы на одном шарде → однонодовая транзакция

-- Кросс-шард: требует 2PC
BEGIN;
UPDATE orders  SET status = 'refunded' WHERE tenant_id = 42 AND order_id = 99;
UPDATE ledger  SET balance = balance + 100 WHERE account_id = 999;  -- НЕ в рамках клиента
COMMIT;
-- Citus использует PREPARE TRANSACTION + COMMIT PREPARED по обоим шардам

Стоимость 2PC:

Задержка: минимум 2 round-trip (фаза prepare + фаза commit); часто больше при учёте clock skew.
Пропускная способность: каждый шард держит своё соединение открытым во время фазы prepare — конкуренция при высоком concurrency.
In-doubt транзакции: если координатор крашнется между PREPARE TRANSACTION и COMMIT PREPARED, prepared-транзакции сидят в pg_prepared_xacts удерживая блокировки до ручного разрешения. Это режим отказа, который нужно мониторить и иметь runbook для.

Ко-локированные одношардовые транзакции — это один дешёвый COMMIT; кросс-шард 2PC удваивает round-trip и добавляет in-doubt риск — поэтому ко-локация и есть старший дефолт.

Лучшие практики:

Проектировать транзакции как одношардовые: ко-локированные таблицы делают это естественным для операций в рамках клиента.
Предпочитать eventual consistency (outbox pattern, saga) там, где бизнес-логика допускает, вместо распределённого 2PC (двухфазного commit).
Мониторить pg_prepared_xacts на каждом воркере; алертить на любую строку старше 5 минут; иметь runbook восстановления (COMMIT PREPARED / ROLLBACK PREPARED).

Вместе эти три практики означают: при правильно построенной системе 2PC нужен крайне редко. Когда видишь кросс-шард транзакцию в коде, сначала спроси: можно ли ко-локировать эти таблицы? Это почти всегда лучшее исправление.

Операционный множитель N×

Операция	Один Postgres	Шардированный (N шардов)
Миграция схемы	Запустить один раз	Citus автопропагирует DDL от координатора к воркерам; проверить согласованность схемы после миграции на всех воркерах
Бэкапы	Один pg_basebackup	N координированных бэкапов; все должны целиться в одну логическую точку во времени для согласованного восстановления
Минорное обновление версии	Одно rolling update	N rolling updates, координированных; версия Citus должна быть совместимой между координатором и всеми воркерами
VACUUM / bloat	Одна конфигурация autovacuum	N отдельных процессов autovacuum; каждый шард независимо накапливает мёртвые строки
Мониторинг	Один дашборд	Метрики на шард + агрегаты по кластеру; перекос шардов виден в heatmap

Опытные команды автоматизируют всё через оркестрацию на шард — Ansible с циклом по хостам воркеров, Terraform for_each, Kubernetes операторы — до запуска в продакшне. Без автоматизации операционный персонал линейно масштабируется с числом шардов, что делает операционный налог шардирования конкретным.

Решардинг ключа: дорогой случай

Иногда исходный ключ шарда оказывается неправильным (шардировали по user_id, но 90% запросов нужен org_id). Решардинг по другому ключу требует переписать каждую строку на новое место:

Dual-write + backfill: приложение пишет как в старую, так и в новую схему шардирования; заполнить исторические данные; переключить чтения; удалить старые. Месяцы работы.
Новый параллельный кластер: развернуть новый кластер с правильным ключом, реплицировать через CDC, переключиться. Наиболее гибко; наибольший операционный объём.
Принять стоимость: на практике команды терпят неправильный ключ шарда вместо того, чтобы платить стоимость миграции — сильный аргумент в пользу тщательного выбора с самого начала.

Опытный вывод: изменение ключа шарда — одна из самых дорогих операций в базах данных. Проектное решение, принятое в момент горизонтального масштабирования, живёт с командой годами.

▸Почему это работает

Почему онлайн-решардинг использует логическую репликацию, а не физическую? Физическая репликация (pg_basebackup, streaming) копирует целые страницы данных — вы получили бы данные каждого клиента из исходного шарда, а не только перемещаемого. Логическая репликация копирует изменения на уровне строк (INSERT/UPDATE/DELETE), фильтруя по интересующим строкам. Для перемещения шарда логическая репликация может скопировать ровно строки из перемещаемого шарда и стримить только их изменения до переключения — намного эффективнее и гибче физической копии.

Викторина

Ребалансировщик Citus работает, и координатор крашится в середине перемещения шарда. Что происходит с кластером?

Расставь шаги по порядку

Упорядочьте шаги онлайн-перемещения шарда Citus (с исходного воркера на целевой):

1 Создать пустой шард на целевом воркере
2 Запустить слот логической репликации на источнике; скопировать существующие строки на цель
3 Стримить текущие изменения с источника на цель пока лаг не упадёт почти до нуля
4 Приостановить записи на этот шард (суб-секунда)
5 Атомарно обновить метаданные карты шардов: шард теперь указывает на целевой воркер
6 Возобновить записи — теперь маршрутизируются на цель; удалить исходный шард

Основной объём данных переезжает во время потоковой репликации, пока кластер онлайн; только финальный cut-over приостанавливает записи, и лишь меньше чем на секунду.

Вспомните перед уходом

01
Опишите паузу записи на шард во время онлайн-ребалансировки Citus: как долго она длится и почему суб-секундная?
02
В чём риск in-doubt транзакции в Citus 2PC и как мониторить и восстанавливаться от него?
03
Почему шардирование описывается как 'дверь в одну сторону' и какие операционные последствия из этого следуют?

Итог

Онлайн-ребалансировка Citus 11.1+ использует логическую репликацию для перемещения шардов между воркерами с суб-секундной паузой записи на шард — репетируйте на стейджинге до запуска в продакшне. Кросс-шард транзакции требуют двухфазного commit, который добавляет ~2× задержку, снижает пропускную способность при concurrency и создаёт риск in-doubt-транзакции при краше координатора; мониторьте pg_prepared_xacts и поддерживайте runbook восстановления. Операционный множитель N× означает, что миграции, бэкапы, обновления и VACUUM должны быть автоматизированы на всех шардах до запуска в продакшне — без автоматизации операционный персонал линейно масштабируется с числом шардов. Изменение ключа шарда после запуска — многомесячный проект; проектное решение, принятое в момент горизонтального масштабирования, живёт с командой годами. Шардирование — правильный ответ когда пределы одного Postgres измерены и доказаны — входить намеренно, с автоматизацией, runbook’ами и отработанными операционными процедурами. Теперь, когда встретишь pull request с новым слоем шардирования, чек-лист ясен: правильный ли ключ шарда, соблюдается ли ко-локация, мониторится ли pg_prepared_xacts и отработан ли ребалансировщик на стейджинге?

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 7 завершено

Связанные уроки

опирается на

Schema-based шардирование и альтернативы мультиарендностиsenior

открывает

Акт 7 в глубину: шардинг, co-location и семиуровневый каскад трейдоффовmiddle

встречается в287

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.