Распределённые системы DIST · 02 · 03

Выборы лидера в Raft: таймауты, правила голосования и четыре свойства безопасности

Как рандомизированные таймауты предотвращают повторные split vote, почему правило completeness лога сохраняет закоммиченные entry при смене лидера, и четыре инварианта, делающих Raft корректным.

DIST Middle ◷ 14 min

Уровень

ОсновыJuniorMiddleSenior

Пять follower-ов одновременно замечают, что лидер молчит. Все пятеро стартуют выборы. Каждый голосует за себя. Никто не побеждает. Цикл повторяется. Именно поэтому Raft использует рандомизированные таймауты — и почему правило голосования тоньше, чем “первый пришёл — первый подан”.

Election timeout и heartbeat-ы

Лидер утверждает свою власть, отправляя heartbeat-ы AppendEntries каждому follower-у с фиксированным интервалом — обычно 50 мс. У каждого follower-а есть election timeout, сбрасываемый каждым валидным heartbeat-ом. Если таймаут срабатывает (heartbeat не получен), follower считает лидера мёртвым и запускает выборы.

Таймаут рандомизирован — обычно в диапазоне 150–300 мс. Без рандомизации все follower-ы таймаутили бы одновременно, каждый голосовал за себя, и голос бы раздробился. При достаточно широком диапазоне с высокой вероятностью один follower срабатывает первым, отправляет RequestVote всем остальным и собирает большинство до того, как кто-то другой таймаутит. Ничьи всё ещё возможны, но редки; любая ничья просто начинает новый term, и новый случайный таймаут быстро её разрешает.

Фиксированные таймауты заставляют всех follower-ов сработать одновременно, дробя голоса. Случайный диапазон (150–300 мс) с высокой вероятностью даёт одному узлу сработать первым.

Правило голосования RequestVote

Нода отдаёт голос в RequestVote только если:

Она ещё не голосовала в этом term (один голос на term на ноду).
Лог candidate-а как минимум так же актуален, как собственный лог voter-а.

“Как минимум так же актуален” сравнивается по: больший lastLogTerm побеждает; при равных term-ах побеждает больший lastLogIndex. Это правило — ключ к безопасности.

Почему правило completeness лога важно

Без проверки up-to-date candidate со stale-логом мог бы выиграть выборы и стать лидером, не имея закоммиченных entry. Эти entry были бы перезаписаны, нарушая гарантию, что закоммиченное entry сохраняется навсегда.

Аргумент пересечения кворумов объясняет, почему правило работает: каждое закоммиченное entry было подтверждено большинством. Любой election-кворум пересекается с этим commit-кворумом хотя бы в одной ноде. Через эту общую ноду candidate должен иметь закоммиченное entry (иначе voter откажет). Вместе пересечение кворумов и правило completeness лога дают Leader Completeness: каждый лидер term T+1 имеет все entry, закоммиченные в term-ах 1–T.

Четыре свойства безопасности

Доказательство корректности Raft сводится к четырём инвариантам:

Election Safety — максимум один лидер на term. Следует из “один голос на ноду на term + требуется большинство”.
Leader Append-Only — лидер никогда не перезаписывает и не удаляет свои log entry; только дописывает.
Log Matching — если два лога имеют общий entry на index i с term t, они идентичны для всех index до i включительно. Следует из проверки целостности AppendEntries.
Leader Completeness — любое entry, закоммиченное в каком-то term, есть в логе каждого лидера более высоких term-ов. Следует из пересечения кворумов + правила голосования.

Эти четыре инварианта работают цепочкой: Safety предотвращает двух лидеров (1), Append-Only сохраняет лог лидера нетронутым (2), Log Matching заставляет follower-ы к нему сходиться (3), а Completeness гарантирует: новый лидер не стартует с пробелом (4). Без любого звена цепь рвётся — именно поэтому etcd трактует каждый инвариант как обязательное требование протокола.

Каждый инвариант — не самостоятельное правило, а следствие одного конкретного механизма; убери механизм — наступает названный отказ. В этом разница между заучиванием четырёх свойств и пониманием, почему доказательство держится.

State Machine Safety (выводится): никакие две ноды никогда не применяют разные команды на одном index.

Викторина

Зачем Raft рандомизирует election timeout (150–300 мс) вместо фиксированного значения?

Викторина

Почему правило голосования RequestVote требует, чтобы лог candidate-а был как минимум так же актуален, как у voter-а?

Проследи

1/5

Проследи чистые выборы лидера после его краша.

Step 1 of 5

Сетап: 5-нодовый кластер A, B, C, D, E. A — лидер term 7. A падает.

Locked

Таймер B срабатывает первым на 187 мс. Что делает B?

Locked

C, D, E получают RequestVote. Они проверяют: голосовал ли я в term 8? Лог B как минимум так же актуален, как мой?

Locked

B собирает 3 голоса (себя + C + D). Что дальше?

Locked

A возвращается online со stale term 7.

Кандидат получает голоса от C и D — со своим голосом это 3 из 5, то есть majority — поэтому становится лидером term 8 и начинает слать heartbeat-ы. Голос отдаётся, только если нода не голосовала в этом term и лог кандидата не менее свежий.

Вспомните перед уходом

01
Почему Raft требует большинства для выборов, а не просто 2 из 5?
02
Нода вернулась после 10 минут offline. У неё lastLogTerm=5, lastLogIndex=200. Кластер на term 12, лидер имеет lastLogIndex=9500. Может ли эта нода выиграть выборы?
03
В чём разница между Election Safety и Leader Completeness?

Итог

Raft предотвращает повторные split vote рандомизацией election timeout — первый срабатывает follower скорее всего собирает большинство до того, как остальные вообще стартуют. Правило голосования RequestVote требует от candidate-ов иметь логи как минимум так же актуальные, как у любого voter-а — вместе с пересечением кворумов это гарантирует, что выигравший лидер имеет каждое ранее закоммиченное entry (Leader Completeness). Четыре свойства безопасности — Election Safety, Leader Append-Only, Log Matching и Leader Completeness — вместе гарантируют, что никакие две ноды никогда не применяют разные команды на одном index. Типичные выборы лидера на здоровом кластере разрешаются за 100–500 мс. Теперь, когда видишь, что candidate проигрывает выборы несмотря на более долгий uptime — знаешь почему: побеждает не старшинство, а проверка completeness лога.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Как Raft реплицирует log entry и решает, что его безопасно коммититьmiddle

открывает

Raft в реальном мире: partition, медленный диск и клиентская маршрутизацияmiddle

углубляется в

Raft в реальном мире: partition, медленный диск и клиентская маршрутизацияmiddle

встречается в204

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.