Архитектура бэкенда BE · 01 · 06

Таймауты и хвостовая задержка: бюджеты, дедлайны и ловушка fan-out

Каждому хопу нужен таймаут, и таймауты должны складываться в бюджет на весь запрос. На масштабе доминирует хвост: разветвитесь к достаточному числу сервисов — и самый медленный решает задержку почти каждого пользователя.

BE Senior ◷ 18 min

Уровень

ОсновыJuniorMiddleSenior

Каждый сервис в цепочке здоров: любая зависимость отвечает за 10 мс на 99-м перцентиле. Страница продукта разветвляется к 100 из них параллельно и ждёт всех. И всё же 63% загрузок страницы занимают больше секунды. Ни один сервис не медленный. Медленна математика хвоста — и интуиция большинства инженеров про средние полностью её прячет.

Таймаут на каждом хопе, или зависание на каждом инциденте

Сетевой вызов без таймаута — баг, ждущий инцидента. Когда зависимость перестаёт отвечать (не отказывает — зависает), вызов без таймаута ждёт вечно, удерживая поток или соединение. Достаточно таких вызовов — и пул исчерпан, и одна медленная зависимость роняет здоровый сервис. Каждому исходящему вызову — запросу к БД, кешу, HTTP, RPC — нужен явный таймаут. Дефолт в большинстве клиентов — нет таймаута, и это худший дефолт в backend-инженерии.

Таймауты должны складываться в бюджет

Потаймауты на хоп, выставленные изолированно, лгут. Если у запроса SLA 1 с, но он вызывает сервис A (таймаут 1 с), который вызывает сервис B (таймаут 1 с), то когда B медленный, A ждёт всю секунду, а клиент уже сдался — A теперь делает работу, которую никто не ждёт. Лечение — бюджет таймаута (дедлайн): точка входа выделяет общий объём, и каждый хоп передаёт оставшееся время вниз. gRPC формализует это как дедлайн, распространяемый в метаданных; каждый сервис вычисляет свой локальный таймаут как min(локальный дефолт, оставшийся бюджет).

Подход	Что использует каждый хоп	Режим отказа
Нет таймаутов	∞	Одна зависшая зависимость исчерпывает пулы, каскад
Независимые потаймауты на хоп	Фиксированное локальное значение	Внутренняя работа переживает терпение вызывающего
Распространяемый дедлайн (бюджет)	min(локальный, оставшийся)	Ограничен; внутренние хопы стоп, когда бюджет потрачен

Почему хвост, а не среднее, — это SLA

Пользователи не переживают ваше среднее. Они переживают свой запрос, и медленные — то, что они запоминают и что срывает алерты. Поэтому задержку отчитывают перцентилями: p50 (медиана), p99 (1 из 100 хуже), p99.9. Разрыв между p50 и p99 — «хвостовая задержка», вызванная паузами GC, очередями, промахами кеша, конкуренцией за блокировки и повторами.

Опасность — усиление хвоста под fan-out. Если один запрос к сервису медленный с вероятностью p, то запрос, разветвляющийся к N сервисам параллельно и ждущий всех, медленный, если медленный любой один — вероятность 1 − (1 − p)^N. При посервисном p99 (p = 1%) и N = 100 это 1 − 0.99^100 ≈ 63%. Это число из Hook, прямо из The Tail at Scale Дина и Барросо: сервис, разветвляющийся к 2000, оставляет около 20% запросов дольше секунды, даже когда p99 каждого бэкенда в норме.

Зафиксируйте каждый бэкенд на 1% медленных вызовов — и шанс медленной страницы всё равно растёт до 63% при N=100 и 87% при N=200, потому что вы ждёте всех N и медленны, если медленен любой. Хвост складывается, а не усредняется.

Защита хвоста: хеджирование, а не только таймауты

Таймаут ограничивает худший случай, но не улучшает типичный хвост. Техника из The Tail at Scale — хеджированные запросы: отправьте запрос, и если ответ не пришёл к задержке p95, отправьте вторую копию другой реплике и возьмите ту, что вернётся первой. Поскольку хеджируются только медленные ~5%, лишняя нагрузка мала (~5%), а хвост схлопывается — в измерениях Google отправка хеджа после задержки в 10 мс срезала p99.9 с 1800 мс до 74 мс ценой ~2% лишних запросов. Связанные запросы идут дальше: дубликаты говорят друг другу отмениться, как только один начал выполняться, обрезая зря потраченную работу.

▸Почему это работает

Почему не просто повтор по таймауту вместо хеджирования? Повтор срабатывает только после того, как вы уже заплатили полный таймаут — поэтому он улучшает доступность, но не задержку, а наивные повторы усиливают нагрузку ровно тогда, когда сервис и так в беде (шторм повторов). Хеджирование срабатывает спекулятивно на p95, до таймаута, поэтому атакует задержку напрямую; и поскольку оно ограничено медленным хвостом, добавляет ограниченную нагрузку. Эти двое дополняют друг друга: хеджируй, чтобы срезать хвост, повторяй с backoff и jitter, чтобы пережить сбои, и circuit breaker (следующий юнит), чтобы остановить оба, когда зависимость по-настоящему лежит.

Викторина

Страница разветвляется к 100 независимым сервисам параллельно и ждёт всех. У каждого p99 = 10 мс (1% шанс, что вызов превысит это). Примерно какая доля загрузок страницы превысит 10 мс хотя бы на одном вызове?

Викторина

Почему независимые потаймауты на хоп не защищают запрос с общим SLA?

Викторина

Как хеджированный запрос снижает хвостовую задержку без большой лишней нагрузки?

Точка входа задаёт общий бюджет; каждый хоп передаёт остаток времени и берёт min(локальный таймаут, остаток). Когда бюджет потрачен, внутренние хопы останавливаются, а не делают работу, которую никто не ждёт.

Вспомните перед уходом

01
Почему каждому исходящему вызову нужен явный таймаут, и почему распространяемый дедлайн лучше независимых потаймаутов на хоп?
02
Объясните усиление хвоста под fan-out с математикой и каноническими числами.
03
Что такое хеджированные и связанные запросы, и почему их предпочитают повторам для среза хвоста?

Итог

Последняя остановка превращает запрос из «он возвращается» в «он возвращается вовремя». Каждому исходящему вызову нужен явный таймаут, потому что дефолт ждать вечно даёт одной зависшей зависимости исчерпать пулы и пойти каскадом. Но изолированные таймауты не складываются, поэтому они должны сворачиваться в распространяемый дедлайн, где каждый хоп использует min(локальный, оставшийся) — модель, которую стандартизирует gRPC. На масштабе среднее — ложь: пользователь чувствует свой запрос, поэтому отслеживай p99/p99.9, а fan-out (веерный вызов к нескольким сервисам одновременно) усиливает хвост жестоко — 1 − (1 − p)^N достигает 63% медленных при p=1%, N=100. Таймауты ограничивают худший случай, но не чинят типичный хвост; хеджированные и связанные запросы, запущенные на p95, схлопывают его ценой пары процентов лишней нагрузки. Теперь, когда увидишь p99, отличный по каждому отдельному сервису, но ужасный на уровне страницы, — нарисуй граф fan-out и примени математику, прежде чем добавлять кеши. Это мост к устойчивости: когда зависимость не просто медленна, а сбоит, таймаутов и хеджирования мало, и circuit breakers (автоматические выключатели) и bulkheads следующего юнита берут управление.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Стриминг и backpressure: когда клиент читает медленнее, чем вы пишетеsenior

углубляется в

встречается в188

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.