Базы данных DB · 04 · 02

Заголовок tuple и механика снимков

Каждый tuple хранит 23-байтный заголовок с t_xmin/t_xmax/t_ctid; snapshot закрепляет xmin/xmax/xip; правило видимости применяется построчно без read-блокировок.

DB Middle ◷ 16 min

Уровень

ОсновыJuniorMiddleSenior

Postgres читает три числа из заголовка каждой строки, сравнивает их с тремя числами в snapshot транзакции и принимает решение о видимости — без единой read-блокировки. Разберём механику побайтово.

Заголовок tuple

Когда задаёшься вопросом — почему две параллельные транзакции видят разные значения одной строки, и почему SELECT сразу после массового INSERT медленнее, чем должен — ответ живёт в этих 23 байтах.

Когда Postgres сохраняет tuple на heap-странице, перед пользовательскими колонками идёт 23-байтный заголовок:

Поле	Тип	Назначение
`t_xmin`	32-bit XID	Транзакция, вставившая эту версию
`t_xmax`	32-bit XID	Транзакция, удалившая/обновившая версию (0 = живая)
`t_cid`	32-bit	Command id внутри транзакции
`t_ctid`	(block, offset)	Указатель на следующую версию строки
`t_infomask`	16-bit	Биты статуса: XMIN_COMMITTED, XMAX_INVALID, HOT-флаги и др.
`t_infomask2`	16-bit	Число атрибутов + флаги HOT

Именно эти поля решают вопрос видимости на каждой строке, которую Postgres смотрит.

Этот фиксированный 23-байтный заголовок идёт перед пользовательскими колонками каждой строки. Правило видимости работает с этими байтами — поэтому каждый UPDATE, пишущий новый tuple, снова платит налог за заголовок.

Как snapshot решает, что читать

Когда транзакция начинается — при первом запросе под READ COMMITTED, или на BEGIN под REPEATABLE READ — Postgres строит snapshot. Это небольшая структура, фиксирующая три числа:

xmin — id самой старой ещё работающей транзакции
xmax — id на единицу больше последнего закоммиченного на момент snapshot
xip — список незавершённых транзакций между xmin и xmax

Правило видимости (применяется построчно):

Tuple виден, если:

его t_xmin закоммичен и не в списке xip, И
его t_xmax равен нулю, ИЛИ откатан, ИЛИ в списке xip

Никаких read-блокировок не задействовано — это и есть весь механизм.

INSERT, UPDATE, DELETE — что реально происходит на диске

INSERT — кладёт свежий tuple с t_xmin = id текущей транзакции, t_xmax = 0.

UPDATE — две операции:

Помечает старый tuple: t_xmax = текущая транзакция
Вставляет новый tuple: t_xmin = та же транзакция; t_ctid старого указывает на адрес нового

DELETE — помечает существующий tuple: t_xmax = текущая транзакция. Ничего нового не пишет.

Ни одна из операций не удаляет ничего физически. Все логически обратимы до коммита, а после коммита по-прежнему физически на месте, пока VACUUM не решит, что они больше никому не нужны.

Пример: параллельный UPDATE и SELECT

Проследи одну строку через UPDATE и параллельный SELECT

1/3

A обновила id=42, но не закоммитила, поэтому A в списке xip snapshot B. Удаление v1 транзакцией A ещё не видно, поэтому B читает v1 (balance=100); v2 создана A и потому невидима для B.

Проверь себя

Проследи

1/6

Проследи MVCC-состояние одной строки под SELECT, потом UPDATE, потом DELETE в трёх разных транзакциях, плюс четвёртая долгая SELECT держит старый snapshot.

Step 1 of 6

T1 вставляет (id=5, balance=100). T1 коммитит. Состояние heap?

Locked

T2 начинается, читает id=5 и остаётся открытой без коммита. Тем временем T3 начинается.

Locked

T3 выполняет UPDATE accounts SET balance = 50 WHERE id = 5, потом коммитит.

Locked

T4 начинается, выполняет DELETE FROM accounts WHERE id = 5, коммитит.

Locked

Что показывает pg_stat_all_tables.n_dead_tup для этой таблицы?

Locked

T2 наконец-то коммитит. Что произойдёт?

Викторина

На каком уровне изоляции Postgres обнаруживает lost update и бросает SQLSTATE 40001 вместо тихой перезаписи?

Викторина

UPDATE ставит t_xmax строки в id текущей транзакции и вставляет новый tuple. Что происходит со старым tuple сразу после коммита?

Вспомните перед уходом

01
Назови три поля snapshot в Postgres и объясни роль каждого.
02
Почему t_ctid важен для операции UPDATE, но не для DELETE?
03
Долгая транзакция T2 стартует, ничего не делает, и держится открытой. T3 делает 10 000 UPDATE на таблице orders и коммитит. Почему VACUUM всё равно не может убрать мёртвые tuple?

Recap

Заголовок tuple: 23 байта с t_xmin, t_xmax, t_ctid, t_infomask
Snapshot: три числа (xmin, xmax, xip); правило видимости применяется построчно без блокировок
INSERT: один новый tuple. UPDATE: два tuple (старый с t_xmax, новый с t_xmin). DELETE: один tuple с t_xmax
Физического удаления нет; VACUUM помечает мёртвые tuple переиспользуемыми после того как ни один snapshot их не нуждается
Под RC snapshot обновляется на каждом statement; под RR — берётся один раз на BEGIN
Теперь, когда видишь “устаревшее” значение в SELECT пока другая сессия ещё в UPDATE — ты знаешь: транзакция в xip, правило видимости держит старую версию живой специально для тебя.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

MVCC: как Postgres раздаёт согласованные снимкиjunior

открывает

углубляется в

встречается в166

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.