Архитектура бэкенда BE · 08 · 05

Сервис под перегрузкой: сброс нагрузки и грациозная деградация

Каждый механизм — ещё и ручка контроля нагрузки, и перегрузка — где они действуют вместе: размер пула и потолки конкуренции ограничивают работу в полёте, таймауты и breakers режут потери, а сброс нагрузки отвергает излишек рано — так сервис деградирует грациозно.

BE Senior ◷ 18 min

Уровень

ОсновыJuniorMiddleSenior

Есть уровень нагрузки, выше которого твой сервис не может обслужить каждый запрос, как бы он ни был написан — и единственный выбор у тебя в том, как он падает, дойдя до него. Наивный инстинкт — попытаться обслужить всех: принять каждое соединение, поставить в очередь каждый запрос, переретраить каждый сбой. Этот инстинкт ровно и рождает коллапс из урока двумя ранее, потому что приём работы, что не можешь закончить, не помогает пользователю, чей запрос ты принял, и крадёт ресурсы у пользователей, чьи запросы ты мог бы закончить. Контринтуитивная истина перегрузки в том, что отвергая часть запросов, ты обслуживаешь остальные — сервис, что сбрасывает 20% нагрузки на двери и обслуживает другие 80% быстро, несравнимо здоровее того, что принимает 100% и обслуживает всё слишком медленно, чтобы быть полезным, затем валится и обслуживает 0%. Это сдвиг от мышления о throughput (обработанные запросы) к goodput (запросы, обработанные с пользой, внутри их дедлайна). И вот синтез: каждый механизм, что ты выучил, втайне ручка контроля нагрузки. Пул ограничивает конкурентную работу. Таймауты освобождают ресурсы от обречённых запросов. Breaker сбрасывает нагрузку с падающей зависимости. Shutdown сбрасывает нагрузку с уходящего инстанса. Перегрузка — условие, что заставляет их все действовать разом, и эксплуатировать бэкенд значит настраивать их так, чтобы сервис гнулся, а не ломался.

Throughput — неверная цель; goodput — верная

Метрика, что важна под перегрузкой, — не сколько запросов ты принимаешь, а сколько завершаешь с пользой — достаточно быстро, чтобы ответ ещё значил что-то для вызывающего. Зови это goodput. Запрос, что ты принял, держал 8 секунд и наконец ответил после того, как клиент уже таймаутнулся и переретраил, — чистая трата: он съел соединение, слот loop и CPU и произвёл отрицательную ценность, потому что ещё и задержал реальную работу. За точкой насыщения подъём принятой нагрузки снижает goodput — классическая кривая перегрузки, где throughput лезет, пикует, затем падает с обрыва, как система тратит себя на работу, что больше не важна. Вся дисциплина обработки перегрузки в удержании системы на вершине той кривой вместо сползания по дальней стороне, а это значит отказ от работы, что не можешь завершить вовремя.

Ниже ёмкости goodput следует за принятой нагрузкой; точка насыщения при 1×C — пик. За ней приём большего снижает goodput — дисциплина перегрузки в удержании на вершине, не в сползании с обрыва.

Сброс нагрузки: отвергай рано, отвергай дёшево

Сброс нагрузки — намеренное, раннее отвержение излишних запросов, чтобы принятые преуспели. Три свойства заставляют его работать:

Рано. Сбрасывай на краю, до того как запрос съест пуловое соединение или даунстрим-вызов. Запрос, отвергнутый на приёме, стоит почти ничего; запрос, отвергнутый после захвата ресурсов, уже нанёс урон. Вот почему проверка приёма или ограничитель конкуренции сидит перед дорогими слоями.
Дёшево и честно. Отвержение — быстрый 503 Service Unavailable с Retry-After, не медленная ошибка. Оно говорит клиенту не долби меня — что противоположно тихой медлительности, что запускает штормы ретраев.
С приоритетом. Не вся нагрузка равна. Сбрасывай наименее ценное первым — фоновые обновления до пользовательских чтений, анонимных до платных, ретраи до первых попыток. Хороший сбрасыватель роняет правильные 20%, сохраняя goodput там, где он важен.

Вместе эти три свойства означают, что сброс нагрузки — не запасной вариант на случай аварии, а проектное решение, что принимаешь до прихода трафика. Без свойства «рано» урон уже нанесён к моменту сброса; без «с приоритетом» ты можешь защищать фоновые задачи, роняя платящих клиентов.

Backpressure: толкаем лимит вверх по течению

Двойник сброса — backpressure: вместо приёма работы и её сброса ты сигналишь вверх по течению замедлиться. Ограниченная очередь, что отвергает новые входы при заполнении, пул, что делает получение быстро падающим вместо безграничной очереди, HTTP-слой, что перестаёт читать сокет — каждый распространяет «я полон» обратно к источнику, так что давление чувствуется там, где его реально можно снизить (клиент отступает, вышестоящий сервис маршрутизирует иначе), а не поглощается тихо, пока что-то не сломается. Сброс и backpressure — две половины одной идеи: сделай лимит явным и обеспечь его на границе, а не позволяй неявному лимиту (память, файловые дескрипторы, пул) обеспечить себя коллапсом.

Каждый механизм — ручка контроля нагрузки

Синтез, к которому весь юнит строился: семь механизмов — не просто инструменты корректности, они актуаторы контроля нагрузки, и перегрузка — когда они комбинируются:

Пул / лимит конкуренции — жёсткий потолок на работу в полёте. Важнейшая защита от перегрузки: он превращает «безграничную медлительность» в «ограниченную работу плюс явное отвержение».
Таймауты — освобождают ресурсы от запросов, что не закончатся вовремя, так что обречённая работа перестаёт красть ёмкость у жизнеспособной.
Circuit breaker — сбрасывает нагрузку с падающей зависимости, что есть перегрузка, локализованная на одном даунстриме.
Ретраи (ограниченные, с backoff и jitter) — усилитель нагрузки, что надо ограничить, потому что неограниченные ретраи превращают перегрузку в коллапс.
Graceful shutdown — сбрасывает нагрузку с уходящего инстанса, не роняя его работу в полёте на пол.
Наблюдаемость — обратная связь, что говорит тебе, где ты на кривой goodput, так что сброс может запускаться реальным насыщением, не догадками.

Настройка их вместе — пул, размеренный под медленнейшую зависимость, таймауты, вложенные в бюджет, ретраи ограничены, сбрасыватель на краю, завязанный на метрики насыщения — вот что заставляет сервис деградировать грациозно: обслуживать меньше, но обслуживать хорошо, и никогда не падать в ноль.

▸Почему это работает

Почему отвержение запросов — намеренный сбой части пользователей — корректное поведение под перегрузкой, когда это ощущается тем единственным, чего сервис существует избегать? Потому что альтернатива не «обслужить всех», а «не обслужить никого», и арифметика беспощадна. У сервера конечная ёмкость C полезной работы в секунду. Когда спрос D превышает C, ты не можешь завершить D; ты можешь лишь выбрать, что случится с D − C запросами, на которые у тебя нет ёмкости. Если ты принимаешь их всё равно, они не испаряются — они сидят в очередях и держат ресурсы, пока ждут, что значит, даже те C запросов, что ты мог бы обслужить, теперь ждут за ними, так что их латентность лезет за точку полезности тоже. Приём работы сверх ёмкости не добавляет обслуженных запросов; он вычитает их, потому что излишек деградирует запросы, что были внутри ёмкости. Это жестокая инверсия в сердце перегрузки: за точкой насыщения старание сильнее обслужить всех обслуживает меньше людей, потому что ресурс-бутылочное-горло тратится на координацию, очередь и таймаутнутую работу вместо завершения. Сброс излишка D − C на двери — дёшево, до того как он что-либо захватит — вот что защищает C: он держит очередь короткой, так что принятые запросы остаются быстрыми, так что они заканчиваются внутри дедлайна и становятся goodput вместо траты. Причина, почему это ощущается неверным, в том, что один отвергнутый запрос выглядит сбоем, тогда как цена, что он наложил бы на других, рассеяна и невидима — ты видишь 503, что вернул, но не пятьдесят таймаутов, что предотвратил. Сеньорное суждение — ровно способность ценить невидимых многих над видимым одним: сбрасывать наименее ценную нагрузку рано и намеренно, так чтобы система оставалась на продуктивной стороне кривой перегрузки. И это связывает каждый прошлый урок — пул это механизм, что делает C явной, таймаут это то, что обеспечивает дедлайн, определяющий goodput, breaker это сброс, применённый к зависимости, а наблюдаемость это то, что говорит тебе, что D пересёк C, вовремя для действия. Обработка перегрузки — не отдельная фича, привинченная сбоку; это то, чем все семь механизмов являются, увиденные под углом системы, у которой просят больше, чем она может дать.

Механизм	Его роль контроля нагрузки	Что он предотвращает
Пул / потолок конкуренции	Жёсткий предел работы в полёте	Безграничная медлительность от приёма всего
Таймаут	Освобождает ресурсы от обречённой работы	Обречённые запросы крадут жизнеспособную ёмкость
Circuit breaker	Сброс нагрузки с падающей зависимости	Долбёжка даунстрима, что уже упал
Ограниченные ретраи + backoff	Ограничить усилитель нагрузки	Шторм ретраев, превращающий перегрузку в коллапс
Сброс нагрузки (край)	Отвергать излишек дёшево, рано	Рост очереди, что стирает goodput
Backpressure	Сигнал вверх замедлиться	Тихое поглощение, пока что-то не сломается
Graceful shutdown	Сброс нагрузки с уходящего узла	Потеря работы в полёте на деплое

Викторина

Сервис за точкой насыщения: спрос превышает ёмкость. Сейчас он принимает и ставит в очередь каждый запрос. Почему добавление намеренного сброса нагрузки (быстрые 503 на краю) увеличивает число хорошо обслуженных пользователей?

Викторина

Почему «goodput» — лучшая цель, чем «throughput», при обработке перегрузки?

Расставь шаги по порядку

Расставь слои защиты от перегрузки от края запроса внутрь:

1 Сбрасывать излишек на приёме: быстрый 503 + Retry-After, роняя наименее ценную нагрузку первой
2 Ограничить работу в полёте пулом / потолком конкуренции, так чтобы принятая нагрузка была конечной
3 Обеспечить вложенные таймауты, так чтобы обречённые запросы освобождали ресурсы быстро
4 Применить breaker к падающим зависимостям и ограничить ретраи, так чтобы они не усиливали

За насыщением приём всей нагрузки снижает goodput. Сброс излишка на приёме держит принятые запросы быстрыми и завершимыми.

key takeaway

Выше некоторого уровня нагрузки сервис не может обслужить каждый запрос, и единственный выбор — как он падает — так что контринтуитивная истина перегрузки в том, что отвергая часть запросов, ты обслуживаешь остальные. Верная цель — не throughput (принятые запросы), а goodput (запросы, завершённые с пользой, внутри их дедлайна): за точкой насыщения подъём принятой нагрузки снижает goodput, потому что принятая-но-незавершимая работа держит соединения, слоты loop и CPU, пока ждёт, задерживая даже запросы, что были внутри ёмкости, пока те тоже не пролетят дедлайн — так что старание обслужить всех обслуживает меньше. Сброс нагрузки — намеренное, раннее отвержение излишка, чтобы принятые запросы преуспели: сбрасывай на краю до того, как запрос захватит ресурсы (запрос, отвергнутый на приёме, стоит почти ничего), отвергай дёшево и честно быстрым 503 + Retry-After (противоположность тихой медлительности, что запускает штормы ретраев), и приоритизируй — роняй наименее ценную нагрузку первой (фоновое до пользовательского, анонимных до платных, ретраи до первых попыток). Его двойник — backpressure: сигналь вверх по течению замедлиться (ограниченные очереди, что отвергают при заполнении, быстро падающее получение, прекращение чтения сокета) так, чтобы давление чувствовалось там, где его можно снизить, а не поглощалось тихо до коллапса. Синтез: каждый механизм — ручка контроля нагрузки, и перегрузка — когда они комбинируются — пул/потолок конкуренции это жёсткий предел работы в полёте (важнейшая защита), таймауты освобождают ресурсы от обречённой работы, breaker сбрасывает нагрузку с падающей зависимости, ограниченные ретраи с backoff ограничивают усилитель, graceful shutdown сбрасывает нагрузку с уходящего инстанса, а наблюдаемость говорит тебе, где ты на кривой goodput, так что сброс запускается на реальном насыщении. Настроенные вместе — пул под медленнейшую зависимость, таймауты вложены в бюджет, ретраи ограничены, сбрасыватель на краю завязан на насыщение — они заставляют сервис деградировать грациозно: обслуживать меньше, обслуживать хорошо, никогда не падать в ноль.

Вспомните перед уходом

01
Почему отвержение запросов — корректное поведение под перегрузкой, и что такое goodput?
02
Что делает сброс нагрузки эффективным, как связан backpressure и как каждый механизм — ручка контроля нагрузки?

Итог

Выше определённой нагрузки ни один сервис не может обслужить всех, и единственный реальный выбор — как он падает — так что дисциплина перегрузки в том, чтобы отвергать часть запросов намеренно, чтобы остальные преуспели. Цель сдвигается от throughput (принятые) к goodput (завершённые с пользой внутри дедлайна), потому что за насыщением принятая-но-незавершимая работа забивает очереди и тянет запросы внутри ёмкости за их дедлайны тоже: обслуживание всех обслуживает меньше. Сброс нагрузки отвергает излишек рано, дёшево и по приоритету; backpressure толкает лимит вверх по течению, так что он чувствуется там, где его можно снизить — две половины делания лимита явным на границе. И синтез приземляется: каждый механизм трека — ручка контроля нагрузки — пул ограничивает работу, таймауты освобождают обречённые запросы, breaker сбрасывает падающую зависимость, ограниченные ретраи укрощают усилитель, shutdown сбрасывает уходящий узел, наблюдаемость говорит тебе, где ты на кривой — настроенные вместе, чтобы сервис деградировал грациозно вместо коллапса. Мы теперь видели семь механизмов кооперирующимися, падающими, наблюдаемыми и настроенными под давлением. Финальный урок собирает всё это в ревью готовности к продакшену: чеклист, что превращает весь трек в гейт запуска. Теперь, когда встретишь сервис, что принимает всё и ставит всё в очередь под нагрузкой, — можешь назвать, что будет дальше: очередь растёт, принятая-но-незавершимая работа задерживает работу внутри ёмкости, goodput схлопывается, шторм ретраев следует. Решение не в большем числе серверов — в сбрасывателе на краю и ограниченном потолке конкуренции за ним.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Видеть систему: RED-метрики, хвост p99 и состояние breakersenior

открывает

Готовность к продакшену: чеклист запуска, что и есть весь трекsenior

углубляется в

Готовность к продакшену: чеклист запуска, что и есть весь трекsenior

встречается в1

Победы в реальном миреsenior

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.