Базы данных DB · 01 · 04

JSONB, массивы и когда side table побеждает

Когда JSONB и типизированные массивы — правильный выбор, стратегии GIN и expression B-tree индексов, FK при масштабе, generated STORED колонки и паттерн «реляционного ярлыка».

DB Middle ◷ 15 min

Уровень

ОсновыJuniorMiddleSenior

Команда добавляет колонку «metadata» JSONB для «случайных дополнительных полей». Через три года в колонке 30 полей, к которым обращается каждый запрос — ни одного индекса, ни одного ограничения, все парсятся при каждом чтении. Схема выросла именно в то, чего пытались избежать.

JSONB vs JSON: всегда JSONB

У Postgres два типа JSON-хранения. JSON хранит текст дословно — парсится заново при каждом чтении, не индексируемый, немного меньше. JSONB хранит разобранную бинарную структуру — индексируемый, запрашиваемый через path-операторы, немного больше. В продакшне всегда JSONB. Единственная причина использовать JSON — сохранение порядка ключей или дублирующихся ключей, чего легитимные схемы никогда не делают.

Когда JSONB является правильным выбором

JSONB хорошо подходит для трёх форм данных:

Действительно гетерогенные данные. Логи событий, где каждый тип события имеет разную форму payload. Ответы сторонних API, где схему контролирует кто-то другой. Объекты конфигурации, где ключи различаются у каждого tenant.
Метаданные «длинного хвоста». Таблица products, где 80% продуктов имеют 10 общих колонок и 20% имеют 50 дополнительных полей специфических для поставщика. 10 колонок типизированы; хвост из 50 полей — JSONB.
Схема первична, запросы редки. Данные, которые вы храните, но редко запрашиваете по полям — метаданные загрузчика файлов, пользовательские настройки на строку.

Неверная форма: любое поле, по которому вы GROUP BY, JOIN, агрегируете, принудительно обеспечиваете уникальность или ссылаетесь через foreign key. Эти поля должны быть типизированными колонками. Коротко: JSONB правильный, когда источник вариативности — сама схема; типизированная колонка правильная, когда источник требования — запрос.

Решение о том, кто диктует требование: если источник вариативности — схема, выбирайте JSONB; как только поле появляется в WHERE, JOIN или ограничении, источник требования — запрос, и это должна быть типизированная колонка.

Когда side table побеждает

Типизированные массивы (TEXT[], INTEGER[]) и JSONB проигрывают side table когда:

Нужно запрашивать «все строки с тегом X» в масштабе — GIN индекс помогает, но join-таблица с B-tree индексом по (tag_id, row_id) быстрее и позволяет принудительно соблюдать FK integrity.
Нужно глобально переименовать тег X — одно UPDATE в таблице тегов vs сканирование каждой строки с тегом.
Нужно считать строки по тегу или соединять теги с другой таблицей — SQL агрегация по join-таблице на порядок дешевле GIN-indexed JSONB.
Нужна уникальность на строку (нет дублирующихся тегов в одном элементе) — легко принудительно соблюдается составным PK join-таблицы; невозможно внутри массива без constraint function.

Правило решения: если нужно только читать «теги этой строки», колонка-массив нормальна. В момент, когда запрос идёт со стороны тега, используйте side table. Без B-tree индекса по колонке тега в join-таблице запрос «какие продукты имеют тег X» делает полный скан независимо от того, насколько хорошо спроектирована остальная схема.

Стратегии JSONB-индексов

У JSONB два семейства индексов. Выбор неправильного делает запросы в 10-100 раз медленнее.

GIN (Generalized Inverted Index — обобщённый инвертированный индекс). Индексирует каждый ключ или путь внутри JSONB. Класс операторов по умолчанию индексирует каждый ключ; jsonb_path_ops индексирует целые пути (быстрее для запросов @> containment, больше индекс). Поддерживает операторы @>, ?, ?|, ?&.

-- GIN по умолчанию: поддерживает ?, ?|, ?& и @>
CREATE INDEX idx_events_payload ON events USING GIN (payload);

-- jsonb_path_ops: только @>, но быстрее для него
CREATE INDEX idx_events_payload_paths ON events USING GIN (payload jsonb_path_ops);

Expression B-tree. Индексирует один конкретный путь, извлечённый как типизированное значение. Поддерживает равенство и range-запросы по этому пути. Намного меньше GIN.

-- Индексирует поле user_id как текст
CREATE INDEX idx_events_user_id ON events ((payload->>'user_id'));

-- Индексирует user_id как integer
CREATE INDEX idx_events_user_id_int ON events (((payload->>'user_id')::BIGINT));

Используйте GIN для «содержит ли этот JSONB ключ/значение X?». Используйте expression B-tree для «найти строки где data.field равно конкретному значению».

Тип индекса	Лучше всего для	Размер	Операторы
GIN (дефолт)	Наличие ключей, containment по многим путям	В 5-20 раз больше B-tree	?, ?\|, ?&, @>
GIN (jsonb_path_ops)	Только @> containment, быстрее поиск	Меньше дефолтного GIN	Только @>
Expression B-tree	Один конкретный путь, равенство/range	Сравним с обычным B-tree	=, <, >, BETWEEN

Generated STORED колонки

Postgres поддерживает generated-колонки, значение которых вычисляется из других колонок при записи и хранится:

ALTER TABLE order_items
  ADD COLUMN line_total_cents INTEGER
  GENERATED ALWAYS AS (unit_price_cents * quantity) STORED;

Колонка запрашиваемая, индексируемая и обновляется автоматически при каждой записи. В отличие от триггера, вычисление объявлено в схеме и видимо любому читателю без знания о триггере.

Сценарии использования: производные значения, которые часто запрашиваются (full_name, line_total, is_final из enum статуса), аудит-флаги, вычисленная денормализация. Цена: записи немного медленнее (выражение вычисляется при каждой записи); миграции на generated-колонках могут вызвать перезапись таблицы.

▸Почему это работает

Почему не использовать триггер для вычисляемых колонок? Триггеры работают, но невидимы на уровне схемы — читатель, изучающий DDL, не знает, что триггер существует или что он делает. Generated-колонки самодокументированы, принудительно соблюдаются движком и корректно сохраняются в дампах схемы. Используйте триггеры когда вычисление зависит от данных из других строк или таблиц (чего generated-колонки не могут). Используйте generated-колонки для per-row арифметики.

FK при масштабе: паттерн PlanetScale

Некоторые гиперскейл-компании (PlanetScale на Vitess, несколько крупных Postgres-инсталляций) рекомендуют отключать foreign keys. Конкретные условия, где это обосновано:

Данные шардированы и связь пересекает границы шардов — FK не могут охватывать шарды.
Каскад создаст транзакцию на несколько миллионов строк, удерживающую блокировки минутами.
Проход проверки FK при DDL-изменении типа колонки является операционным узким местом.

Ни одно из этих условий не применимо к типичной SaaS-схеме ниже ~100M строк в таблице. Для большинства команд FK-ограничение стоит ~5-50 мкс на строку при записи и навсегда отказывает всем строкам-сиротам. Его отключение перемещает гарантию integrity в код приложения, где она реализуется непоследовательно и ломается при рефакторингах.

Опытные инженеры воспринимают «мы отключили FK» как сигнал конкретных ограничений масштаба — не как общую лучшую практику.

Добавить теги к продуктам: колонка-массив, JSONB или side table?

1/3

Викторина

Запрос `WHERE payload @> '{"event_type": "purchase"}'` на таблице в 50M строк выполняется 200 мс с полным GIN-индексом, но нужно менее 20 мс. Что попробовать первым?

Выбери лучший вариант

Новый сервис хранит 'рецензии на продукты' (одна рецензия на пользователя на продукт, рейтинг + текст + опциональные структурированные теги). Какая форма схемы?

Связующая таблица выигрывает у массива или JSONB в тот момент, когда вы запрашиваете со стороны тега: B-tree индекс по tag_id отвечает на «у каких товаров тег X», COUNT GROUP BY считает по тегам, а глобальное переименование — это один UPDATE по tags.name.

Вспомните перед уходом

01
Назовите правило решения для JSONB vs типизированная колонка и приведите пример где каждый вариант правильный.
02
В чём разница между GIN-индексом с классом операторов по умолчанию и с jsonb_path_ops, и когда выбирать каждый?
03
Назовите условия, при которых отключение foreign keys является обоснованным инженерным решением.

Итог

JSONB (всегда JSONB вместо JSON) — правильный выбор для гетерогенных схем, long-tail метаданных и данных, которые хранятся, но редко запрашиваются по полям. Как только поле появляется в WHERE, GROUP BY или JOIN, нужна типизированная колонка. Side tables превосходят массивы и JSONB когда запрос идёт с обеих сторон, нужна агрегация или уникальность между строкой и тегом. GIN поддерживает наличие ключей и containment; expression B-tree поддерживает один конкретный путь для равенства и range. Generated STORED колонки заменяют триггеры для per-row арифметики — объявлены в схеме, видимы любому читателю. FK-ограничения стоят ~5-50 мкс на запись и навсегда предотвращают строки-сироты; отключайте их только при конкретных ограничениях шардирования или каскадов, не как общую практику. Теперь, когда увидишь JSONB-колонку с двумя-тремя полями в WHERE, — знаешь: пора планировать миграцию с извлечением колонок, пока долг schema-on-read не накопился.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Нормальные формы, денормализация и почему схемы «прилипают»middle

открывает

Heap-хранилище, TOAST и выравнивание колонокsenior

углубляется в

Heap-хранилище, TOAST и выравнивание колонокsenior

встречается в190

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.