Архитектура бэкенда BE · 04 · 03

Взятие и таймауты: очередь ожидания — настоящий дроссель задержки

Когда все соединения заняты, запрос не падает — он ждёт в очереди. Таймаут взятия решает, сколько он ждёт до сдачи, и это одно число — разница между быстрым отказом и пайл-апом, кладущим весь сервис.

BE Middle ◷ 15 min

Уровень

ОсновыJuniorMiddleSenior

Downstream-запрос, обычно занимающий 5 мс, замедляется до 500 мс во время инцидента. За секунды каждое соединение в пуле занято одним из этих медленных запросов. Следующий запрос просит соединение, а свободных нет — поэтому он ждёт. У пула дефолтный таймаут взятия 30 секунд, поэтому он ждёт до 30 секунд до отказа. Теперь запросы копятся за пустым пулом, каждый держит поток веб-сервера в заложниках 30 секунд, и пул потоков тоже наполняется. База была лишь медленной; таймаут взятия превратил медленную в лежащую, потому что никто не решил, сколько запрос должен быть готов ждать.

Взятие не всегда мгновенно

Счастливый путь — «взять соединение, оно свободно, выполни запрос». Но у фиксированного пула есть второе состояние: все соединения заняты. Когда так, взятие не ошибётся и не создаст магически новое соединение — оно блокирует, ставя вызывающего в очередь ожидания, пока соединение не вернут или не сработает таймаут. Это ожидание невидимо в обычное время, потому что пул редко пуст, но это важнейшее поведение для понимания, потому что каждый связанный с пулом сбой живёт здесь.

Так что общее время запроса — больше не просто время в очереди на базе; теперь это время ожидания соединения + время запроса. Под нагрузкой часть «ожидание соединения» может затмить сам запрос, и она полностью скрыта, если не мерить отдельно.

Таймаут взятия — дроссель задержки

Таймаут взятия (HikariCP connectionTimeout, дефолт 30 секунд) — сколько вызывающий просидит в очереди ожидания до того, как пул сдастся и бросит исключение. Это число — не деталь безопасности, оставляемая по умолчанию, это намеренный бюджет задержки на худший случай. Задать его хорошо значит выбрать, что должно случиться, когда пул голодает:

Слишком долго (напр. дефолт 30 с). Запросы ждут малую вечность. Каждый ждущий держит вышестоящий ресурс — рабочий поток веб-сервера, HTTP-соединение — всё время. Пул пустеет, затем пул потоков наполняется ждущими, затем сервис перестаёт принимать запросы вообще. Одна медленная зависимость каскадирует в полный отказ.
Слишком коротко (напр. 50 мс). Запросы падают в миг, когда пул кратко полон, включая нормальные микровсплески, которые очистились бы за 60 мс. Ты превращаешь временное давление в поток ошибок.
В точку (часто 1–3× времени обычного запроса, напр. несколько сотен мс до ~2 с). Достаточно долго, чтобы пережить нормальный всплеск, достаточно коротко, чтобы реальное голодание упало быстро и освободило вышестоящий поток на что-то полезное — вернуть 503, сбросить нагрузку, разомкнуть breaker.

Таймаут — один дроссель с двумя противоположными исходами: ограничь ожидание, чтобы упасть быстро и сберечь ёмкость, или оставь дефолт 30 с и дай медленной базе уморить здоровый веб-ярус.

▸Почему это работает

Почему падать быстро лучше долгого ожидания, когда пул голодает? Потому что ждущий запрос не бесплатен — он пришпиливает ресурсы по всему стеку. Пока сидит в очереди взятия, он всё ещё держит поток веб-сервера, сокет, память запроса и часто вышестоящего вызывающего, заблокированного на нём. 30-секундное ожидание — это 30 секунд удержания всего этого ради запроса, который вероятно всё равно упадёт. Помножь на сотни конкурентных запросов, и пул потоков наполняется ждущими, поэтому сервис не может даже принимать новые соединения — классическая спираль голодания потоков, где медленная база кладёт здоровый веб-ярус. Короткий таймаут превращает этот замедленный коллапс в немедленные дешёвые отказы: запрос ошибается за несколько сотен миллисекунд, поток освобождается, и система может применить реальную стратегию перегруза (повтор в другом месте, сброс нагрузки, деградированный ответ) вместо залипания. Быстрый отказ сберегает ёмкость; медленный её потребляет. Это тот же урок head-of-line blocking из юнита про пропускную способность — одна застрявшая стадия отравляет всё за ней — поэтому ограничиваешь ожидание намеренно.

Пайл-ап — петля обратной связи

Опасная часть пустого пула в том, что он самоусиливающийся. Медленные запросы держат соединения дольше → пул осушается → новые запросы встают в очередь → эти запросы держат вышестоящие потоки, пока в очереди → вышестоящий ярус насыщается → повторы наваливают ещё запросов → база, теперь под ещё большим давлением, становится ещё медленнее. Каждый шаг ухудшает следующий. Вот почему малый всплеск задержки на зависимости может стать полным отказом минутами позже: поведение ожидания пула усиливает его. Защиты все про ограничение ожидания: вменяемый таймаут взятия, отдельно мониторимая метрика «потоков ждёт» и быстрый отказ, чтобы вышестоящая ёмкость не потреблялась обречёнными ждущими.

Таймаут взятия	Поведение на голодном пуле	Риск
30 с (дефолт)	Каждый ждущий держит поток 30 с	Голодание потоков, полный отказ
50 мс (слишком коротко)	Нормальные микровсплески падают	Поток ошибок под безобидной нагрузкой
~250 мс – 2 с (настроено)	Переживает всплески, падает быстро при реальном голодании	Освобождает вышестоящее на сброс нагрузки
Нет / бесконечно	Ждущие блокируют навсегда	Постоянный deadlock под давлением

Викторина

Downstream-замедление наполняет пул, и за секунды весь веб-ярус перестаёт принимать запросы, хотя база ещё жива. Каков механизм?

Викторина

Почему короткий, намеренный таймаут взятия обычно безопаснее дефолтных 30 секунд?

Расставь шаги по порядку

Упорядочи каскад, когда медленная зависимость голодит пул с долгим таймаутом взятия:

1 Зависимость замедляется, поэтому запросы держат пулевые соединения куда дольше обычного
2 Пул осушается, пока свободных соединений не останется
3 Новые запросы входят в очередь ожидания, каждый пришпиливает поток веб-сервера
4 Пул потоков наполняется ждущими, и сервис перестаёт принимать запросы

Когда все соединения заняты, взятие блокирует в очереди ожидания. Если соединение возвращено вовремя, запрос продолжает (сообщения 4–6). Если первым срабатывает таймаут взятия, запрос падает быстро (сообщения 7–8), освобождая поток веб-сервера.

key takeaway

У фиксированного пула два состояния, и опасное — пустое: когда все соединения заняты, взятие не ошибается и не растит пул — оно блокирует вызывающего в очереди ожидания. Время запроса становится ожидание-соединения плюс время запроса, и таймаут взятия (HikariCP connectionTimeout, дефолт 30 с) решает худший случай. Оставленный на 30 с, каждый ждущий пришпиливает поток веб-сервера, пока пул потоков не наполнится и медленная база не положит здоровый веб-ярус; слишком короткий — нормальные микровсплески падают. Настроенный примерно на 1–3× обычного запроса (часто несколько сотен мс до ~2 с) он переживает всплески, но падает быстро при реальном голодании, освобождая вышестоящую ёмкость на сброс нагрузки. Пайл-ап пустого пула — самоусиливающаяся петля, поэтому ограничивай ожидание намеренно и мониторь потоков-ждёт как первоклассный сигнал.

Вспомните перед уходом

01
Что случается, когда запросу нужно соединение, но все в пуле заняты?
02
Что такое таймаут взятия и как его задавать?
03
Почему быстрый отказ лучше ожидания, и как пустой пул становится петлёй обратной связи?

Итог

У фиксированного пула тихий режим отказа, живущий целиком в его пустом состоянии: когда каждое соединение занято, взятие блокирует в очереди ожидания вместо ошибки или роста, поэтому задержка запроса становится ожидание-соединения плюс время запроса — и таймаут взятия решает худший случай. Дефолт HikariCP в 30 секунд — ловушка, потому что каждый ждущий пришпиливает поток веб-сервера на всё ожидание, и под медленной зависимостью пул потоков наполняется обречёнными ждущими, пока здоровый веб-ярус не перестанет принимать запросы; слишком короткий таймаут вместо этого валит безобидные микровсплески. Настроенный примерно на один-три времени обычного запроса, он переживает всплески, но падает быстро при реальном голодании, освобождая вышестоящую ёмкость на сброс нагрузки. Пайл-ап пустого пула — самоусиливающаяся петля — медленные запросы осушают пул, запросы в очереди пришпиливают вышестоящие потоки, повторы добавляют нагрузку, база замедляется дальше — поэтому защита в том, чтобы ограничить ожидание намеренно и мониторить потоков-ждёт как первоклассную метрику. Теперь, когда встречаешь инцидент, где здоровый веб-ярус лёг из-за медленной (не упавшей) базы, а threads-waiting никогда не был на графике — знаешь, что делать первым: задать таймаут взятия намеренно и добавить метрику. Ограничение ожидания предполагает, что выдаваемые соединения здоровы — и следующий урок покажет, что они не бесплатны навсегда: соединения протухают, убиваются базой и должны стариться и валидироваться до того, как тихо сломают запрос.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Размер пула: почему больше не значит быстрееmiddle

открывает

Жизненный цикл соединения: протухшие соединения и как их старитьmiddle

углубляется в

Жизненный цикл соединения: протухшие соединения и как их старитьmiddle

встречается в188

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.