Базы данных DB · 07 · 06

Schema-based шардирование и альтернативы мультиарендности

Citus 12 schema-based шардирование, database-per-tenant, маршрутизация на уровне приложения и RLS — четыре валидные архитектуры мультиарендности — каждая с конкретным диапазоном числа клиентов и требований к изоляции.

DB Senior ◷ 12 min

Уровень

ОсновыJuniorMiddleSenior

B2B SaaS с 200 корпоративными клиентами требует contractual data isolation — данные каждого клиента никогда не должны смешиваться в одной таблице. Row-based шардирование Citus помещает нескольких клиентов в один физический шард. Продуктовая команда спрашивает: существует ли более строгая модель изоляции, которую может обеспечить Postgres?

Четыре архитектуры мультиарендности

Архитектура	Единица изоляции	Число клиентов	Операционная стоимость
RLS на одном Postgres	На уровне строк (применение политики)	Неограниченно до насыщения одного PG	Низкая; баги политики молча открывают данные
Citus row-based шардирование	Шард (несколько клиентов на шард)	Тысячи — десятки тысяч	Средняя; Citus управляет маршрутизацией
Citus schema-based (12+)	Схема (одна на клиента)	Несколько тысяч (потолок)	Средняя; схема — единица деплоя
Database-per-tenant	Полная база данных Postgres	Десятки — ~500	Высокая; N бэкапов, N обновлений, N пулов

Каждая строка этой таблицы — ставка на траекторию роста и обязательства по изоляции. Когда видишь сделку с требованием contractual data residency (договорная изоляция данных по юрисдикции), эта таблица сразу говорит: минуй RLS и row-based шардирование, иди прямо к schema-based или database-per-tenant.

Citus 12 schema-based шардирование

Представленное в июле 2023, Citus 12 добавило schema-based шардирование: каждый клиент получает выделенную схему (schema — именованное пространство имён таблиц внутри одной базы данных Postgres), и Citus распределяет схемы по воркерам.

-- Онбординг клиента: создать схему, Citus назначает её воркеру
CREATE SCHEMA acme;
CREATE TABLE acme.orders (id BIGINT, ...);
CREATE TABLE acme.users  (id BIGINT, ...);

-- Приложение: ограничить соединение схемой клиента
SET search_path TO acme, public;
-- Все последующие ссылки на таблицы разрешаются внутри схемы acme
-- Citus прозрачно маршрутизирует на воркер acme

Преимущества над row-based шардированием:

Не требуется общая колонка ключа распределения: любой запрос внутри схемы выполняется на её воркере — joins между любыми таблицами в одной схеме всегда локальные.
Схема — единица деплоя: CREATE SCHEMA для онбординга, DROP SCHEMA CASCADE для оффбординга, перемещение схемы между воркерами для ребалансировки.
Чистая изоляция клиентов: имена таблиц разные для каждой схемы — один клиент не может случайно прочитать данные другого.
Миграции на клиента: ALTER TABLE acme.orders ADD COLUMN ... затрагивает только эту схему.

Ограничения:

Потолок числа клиентов: Citus рекомендует меньше нескольких тысяч схем. Метаданные схем загружаются в планировщик при каждом запросе; тысячи схем замедляют планирование.
Кросс-клиентские запросы по-прежнему кросс-шардовые: аналитика по нескольким клиентам всё равно требует fan-out.
Reference tables неприменимы внутри схем: lookup-таблицы должны быть в каждой схеме или доступны из общей схемы.

Вместе эти четыре преимущества означают: schema-based шардирование даёт структурную изоляцию без операционных накладных расходов database-per-tenant на инстанс — но только до удара в потолок планировщика. Без понимания потолка по числу клиентов команды часто тянутся к schema-based, а потом упираются в накладные расходы планирования при нескольких тысячах клиентов, хотя row-based масштабировалось бы дальше.

Посильное число арендаторов падает примерно в 10 раз на каждом шаге к более строгой изоляции: ~50 000 (шард по строкам) → ~3000 (схема на арендатора) → ~500 (база на арендатора). Сильнее изоляция — меньше посильных арендаторов.

Оптимальная зона применения: B2B SaaS с 50–2000 корпоративными клиентами, где требуется contractual или regulatory data isolation.

Маршрутизация на уровне приложения

Полностью обойти Citus: код приложения поддерживает карту шардов (таблицу или сервис, маппящий tenant_id → connection_string) и явно маршрутизирует запросы.

// Пример: слой маршрутизации читает клиента из контекста запроса
const shard = await shardMap.get(req.tenantId);
const db = connectionPool(shard.connectionString);
return db.query('SELECT * FROM orders WHERE ...', [req.tenantId]);

Плюсы: явность, нет дополнительного продукта базы данных, максимальный контроль, логика маршрутизации на клиента (регион, тир тарифного плана). Минусы: каждая кросс-шард задача становится кодом приложения — joins, транзакции, fan-out, ребалансировка, failover. Слой маршрутизации — критическая инфраструктура первого уровня, которой вы теперь владеете.

Часто применяется, когда число шардов невелико (10–100) и запросы строго привязаны к клиентам. При 5000 клиентах со сложными запросами Citus обычно требует меньше инженерных усилий на многолетнем горизонте.

Database-per-tenant

Каждый клиент получает выделенную базу данных Postgres (или инстанс). Максимальная изоляция: клиенты буквально не могут делить никакую инфраструктуру на уровне базы данных.

Операционная модель:

PgBouncer пул на (клиент, база данных)
Бэкапы на клиентскую базу данных
Минорные и мажорные обновления Postgres на клиентскую базу данных
Миграции схемы, деплоируемые на клиента (или батчами)

Практический потолок: ~100–500 клиентов, прежде чем операционные накладные расходы начинают доминировать. Ниже этого значения database-per-tenant часто проще, чем Citus для регулируемых отраслей (финансы, здравоохранение), где contractual isolation — жёсткое требование.

▸Почему это работает

Почему Citus рекомендует меньше нескольких тысяч схем для schema-based шардирования? Планировщик загружает метаданные схем (записи pg_namespace, pg_class) в рабочую память во время планирования. При 10 схемах это пренебрежимо мало. При 10 000 схем каждый план запроса включает обработку тысяч записей пространств имён, добавляя 10–50 мс ко времени планирования — что доминирует над временем выполнения OLTP-запроса. Именно поэтому schema-based шардирование имеет потолок, а row-based шардирование (которое не загружает метаданные на клиента в планировщик) масштабируется до десятков тысяч клиентов.

Викторина

B2B SaaS имеет 200 клиентов, требует contractual data isolation для каждого, а у инженерной команды нет экспертизы по Citus. Какая архитектура подходит лучше всего?

Викторина

Каков главный потолок числа клиентов для schema-based шардирования Citus и почему?

RLS на одном Postgres — уровень строки тенантов без лимита

Citus row-based шардирование — шард тысячи-десятки тысяч

Citus schema-based — схема на тенанта несколько тысяч

Database-per-tenant — целая БД десятки до ~500

Изоляция усиливается сверху вниз (строка к шарду к схеме к БД); доступное число тенантов и операционная стоимость движутся в обратную сторону. Сопоставьте уровень с числом тенантов и contractual требованиями изоляции.

Вспомните перед уходом

01
Что добавил Citus 12 (июль 2023) и какую проблему это решает, которую row-based шардирование не решает?
02
Для B2B SaaS с 5000 клиентов, где топ-5% генерируют 80% трафика и все запросы несут tenant_id, какая архитектура мультиарендности наиболее вероятно правильная и почему?
03
Когда маршрутизация на уровне приложения (пользовательская карта шардов) является правильным выбором вместо Citus?

Итог

На Postgres существуют четыре архитектуры мультиарендности, каждая подходящая для разного числа клиентов и требований к изоляции: RLS (Row-Level Security — безопасность на уровне строк) на одном Postgres (неограниченное число клиентов, логическая изоляция до достижения мощности), Citus row-based шардирование (тысячи — десятки тысяч, изоляция на уровне шарда), Citus schema-based шардирование (несколько тысяч, структурная изоляция на схему, введена в Citus 12 / июль 2023), и database-per-tenant (десятки — ~500, максимальная изоляция, наибольшая операционная стоимость). Schema-based шардирование устраняет необходимость в общей колонке ключа распределения и обеспечивает чистое пространство имён таблиц на клиента, но потолок накладных расходов планировщика — несколько тысяч схем. Маршрутизация на уровне приложения с пользовательской картой шардов — жизнеспособная альтернатива для небольшого числа шардов с простыми потребностями маршрутизации. Выбор должен соответствовать числу клиентов, требованию к изоляции и операционной зрелости. Теперь, когда юридический отдел клиента потребует «гарантии изоляции данных», ты знаешь, как перевести это требование в архитектуру — и объяснить, какие именно гарантии обеспечивает каждый уровень.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 7 завершено

Связанные уроки

опирается на

Режим отказа hot shard: обнаружение, изоляция и долгосрочная политикаmiddle

открывает

Онлайн-решардинг, 2PC и операционная стоимость шардированияsenior

встречается в166

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.