Распределённые системы DIST · 02 · 04

Raft в реальном мире: partition, медленный диск и клиентская маршрутизация

Что Raft гарантирует при partition (CP, а не AP), как клиентские записи достигают лидера, и три production-failure — медленный диск, network jitter и дрейф часов — причины большинства реальных инцидентов.

DIST Middle ◷ 12 min

Уровень

ОсновыJuniorMiddleSenior

Network partition разделяет твой 5-нодовый etcd-кластер: 3 ноды в DC A, 2 ноды в DC B. Клиенты начинают получать write-ошибки с одной стороны. Это баг? Или именно так Raft и должен работать?

Поведение при partition: minority останавливается

Когда partition изолирует minority нод (меньше большинства), они не могут коммитить или выбирать лидера. Они циклически проводят неудачные выборы, возвращая ошибки любому подключившемуся клиенту. Majority-сторона продолжает нормально.

Это CP-поведение в смысле CAP: Raft выбирает консистентность над доступностью. Minority-сторона отказывает от сервиса, не рискуя двумя одновременными лидерами с конфликтующими коммитами.

Сторона	Ноды	Могут выбирать?	Могут коммитить?	Клиент видит
Majority (DC A)	3 из 5	Да	Да	Нормально
Minority (DC B)	2 из 5	Нет	Нет	Ошибки / таймауты

После восстановления partition: stale-ноды minority видят больший term в первом сообщении от majority-стороны, переходят в follower, обновляют term и догоняют лог через AppendEntries. Никаких потерь данных, никакого раздвоения состояния.

Trace partition: лидер в minority

Более тонкий сценарий: сам лидер оказывается на minority-стороне.

Проследи

1/5

Проследи partition, где текущий лидер изолирован на minority-стороне.

Step 1 of 5

5-нодовый кластер A, B, C, D, E. A — лидер term 4. Partition: A и B изолированы от C, D, E.

Locked

На стороне C, D, E что происходит?

Locked

Состояние во время partition: существуют два 'лидера'?

Locked

Partition восстанавливается. Heartbeat A достигает C.

Locked

Что испытали клиенты?

Клиентская маршрутизация

Только лидер может коммитить записи. Стратегии маршрутизации клиентов:

Redirect: любой follower, получивший запись, отвечает адресом текущего лидера. Клиент ретраит к тому адресу. Типичный паттерн в etcd, Consul, TiKV.
Leader cache: клиенты кешируют последнего известного лидера и идут к нему напрямую; при неудаче откатываются к любой ноде.
Proxy: балансировщик нагрузки отслеживает лидера через health API кластера.

Задержка redirect обычно 1–5 мс на редком промахе. В steady state записи идут напрямую к лидеру.

Консистентность чтения: линеаризуемые чтения должны идти через лидера (ReadIndex или lease — разбираются в следующем уроке). Eventually-consistent чтения могут идти к любому follower-у. Application-слой выбирает per query.

Три production-failure

Когда тебя будят в 2 часа ночи из-за «etcd cluster unstable», в 90% случаев это одна из трёх причин — и знание, которая именно, сужает поиск фикса с часа гаданий до пяти минут в метриках.

1. Медленный fsync диска. Каждое закоммиченное entry требует как минимум одного fsync на лидере и одного на каждом подтверждающем follower-е. На NVMe (твердотельный диск с интерфейсом PCIe, fsync ~50–100 мкс) с battery-backed cache fsync занимает 50–100 мкс. На cloud-объёмах (EBS gp3, GCP balanced PD) — 1–3 мс. Если fsync лидера начинает превышать heartbeat-интервал, follower-ы таймаутят до того, как лидер подтвердит их AppendEntries, и стартуют выборы. Новый лидер попадает на ту же disk-проблему — цикл повторяется. Фикс: dedicated NVMe для Raft WAL, никогда shared cloud-объёмы.

Fsync cloud-объёма в 20-40 раз дороже NVMe — этого достаточно, чтобы превысить heartbeat-интервал и спровоцировать ложные выборы, поэтому WAL место на dedicated NVMe.

2. Network jitter (кратковременные всплески задержки и потери пакетов). Краткий congestion или потеря пакетов обрывают heartbeat-ы и триггерят выборы, хотя кластер в основном здоров. Кластер испытывает 150–300 мс недоступности без длительных последствий. Pre-vote (разбирается в следующем уроке) митигирует это, требуя dry-run перед увеличением term.

3. Дрейф часов при lease read. Если часы лидера убегают вперёд follower-ов, он может растянуть своё lease-окно за фактический heartbeat round и обслуживать чтения, которые уже потеряли lease — stale-данные возвращаются как актуальные. NTP-синхронизация всех нод — требование корректности для lease read, а не просто гигиена.

Викторина

Fsync диска лидера Raft начинает занимать 2 секунды (вместо нормальных 50 мкс). Каков наблюдаемый симптом и почему?

Викторина

Raft описывается как CP, а не AP. Что это означает на практике при network partition?

Raft — это CP: только сторона, удерживающая majority (3 из 5), может выбрать лидера и коммитить; minority (2 из 5) отказывается обслуживать, чтобы не рисковать вторым лидером. После heal minority уходит в follower и догоняет лог.

Вспомните перед уходом

01
5-нодовый Raft-кластер имеет 2 ноды в DC A и 3 в DC B. Межdc-связь падает на 5 минут. Что испытывают клиенты, подключённые к DC A?
02
Почему 'медленный диск' у лидера хуже, чем у follower-а?
03
Каков правильный фикс для Raft-кластера, испытывающего выборы каждые 30–60 секунд?

Итог

Raft — это CP: при partition minority-сторона отказывает в коммитах, не рискуя split brain. Majority-сторона продолжает нормально; после восстановления stale-ноды догоняют лог через проверку целостности AppendEntries. Клиенты маршрутизируют записи к лидеру через redirect или кешированный адрес лидера. Три наиболее частых production-сбоя: медленный fsync диска лидера (триггерит выборы, блокируя heartbeat), network jitter (обрывает heartbeat без причины) и дрейф часов (ломает корректность lease read). У каждого есть известный фикс: dedicated NVMe, pre-vote и NTP-синхронизация соответственно. Теперь, когда видишь неожиданные выборы в мониторинге — сначала смотри WAL fsync p99: в большинстве случаев виновник — shared EBS, а не ошибка в коде консенсуса.