Сети и протоколы NET · 07 · 05

Stale-while-revalidate и cache stampede

Как stale-while-revalidate побеждает cache stampede, когда stale-if-error спасает при сбое origin, и четыре стратегии предотвращения thundering herd.

NET Senior ◷ 12 min

Уровень

ОсновыJuniorMiddleSenior

Ровно в T+3600 секунд запись кеша вашей самой популярной статьи истекает на всех edge POP одновременно. Тысяча пользователей запрашивает страницу в следующую секунду. Каждый получает cache miss. Каждый генерирует запрос к origin. Origin видит трафик в 1000× от нормы и начинает таймаутить — а поскольку часть запросов завершилась таймаутом, CDN сохранил 503-ответ как новую запись кеша. Теперь все пользователи видят 503 следующие 3600 секунд.

Проблема cache stampede

Cache stampede (он же thundering herd — гремящее стадо) происходит, когда:

Истекает популярный кешированный ответ.
Одновременно приходит много конкурентных запросов после истечения.
Все промахиваются по кешу и независимо обращаются к origin.
Origin перегружен; часть запросов завершается таймаутом.
CDN кеширует ответы с ошибками — ситуация ухудшается.

Без защиты коэффициент усиления равен (запросов/сек в момент истечения) × (время ответа origin). Страница с 500 req/s при 200 мс времени ответа origin может генерировать 100 одновременных запросов к origin — нагрузка в 100× от нормы. Шаги 4 и 5 — смертельная комбинация: без шага 5 origin хотя бы восстановился бы по окончании всплеска; с закешированными ошибками stampede блокируется ещё на полный TTL.

То же событие истечения усиливается в сотни или тысячи одновременных запросов к origin без защиты; любая из четырёх мер сводит его к единственному запросу к origin.

stale-while-revalidate (SWR)

RFC 5861 определяет stale-while-revalidate=<seconds>:

Cache-Control: public, max-age=60, stale-while-revalidate=604800

После истечения max-age=60 секунд:

Немедленно отдавать устаревший ответ всем входящим запросам.
Отправить один фоновый запрос ревалидации к origin.
Кеш снова становится свежим после ответа origin.
Окно устаревания: max-age + stale-while-revalidate = 60 с + 7 дней.

Все 1000 конкурентных пользователей в T+60 по-прежнему получают ответ за ~20 мс (устаревший edge hit), тогда как origin видит ровно один запрос ревалидации. Stampede не происходит.

Trade-off: пользователи могут видеть контент, устаревший до stale-while-revalidate секунд. Для тела статьи (max-age=300, swr=3600) это означает, что контент может быть на 1 час устаревшим после истечения max-age. Для тикера срочных новостей неприемлемо — используйте короткий SWR или вообще без SWR.

stale-while-revalidate по типу контента

Тело статьи (допустимое устаревание 1ч): max-age=300, stale-while-revalidate=3600
Листинг товаров (допустимое устаревание 10 мин): max-age=60, stale-while-revalidate=600
Тикер срочных новостей (критична свежесть): max-age=5, stale-while-revalidate=10
Статический ассет (URL с content-hash): max-age=31536000, immutable — SWR не нужен
User-specific данные (баланс счёта): no-store — кеширование полностью запрещено

stale-if-error: graceful degradation при сбое origin

RFC 5861 также определяет stale-if-error=<seconds>:

Cache-Control: public, max-age=3600, stale-if-error=86400

Когда origin возвращает 5xx или недоступен, кеш отдаёт устаревший ответ до stale-if-error секунд (1 день в примере) вместо возврата ошибки пользователям. Это CDN-эквивалент circuit breaker.

Где применять: маркетинговые страницы, документация, страницы статей — всё, где версия с задержкой в 1 день лучше, чем 503. Не применять для оформления заказа, платежей или любой операции, требующей реального времени.

Четыре стратегии защиты от stampede

Стратегия	Как работает	Лучшее применение
Origin shield	Сворачивает все edge-промахи в регионе в один запрос к origin	Все уровни кеша
stale-while-revalidate	Немедленно отдаёт устаревшее, один фоновый запрос ревалидации	Изменяемый контент, допустимое устаревание
Request coalescing (singleflight)	На уровне приложения: первый промах запускает origin fetch; остальные ждут того же результата	Уровень origin-приложения
Probabilistic early expiration (PER / XFetch)	Стохастически обновляет немного до истечения TTL, распределяя нагрузку по времени	Высоконагруженные кеши

▸Почему это работает

Почему origin shield — первая линия защиты. Без origin shield у каждого CDN edge POP отдельный кеш. Когда тот же URL истекает на 200 POP в регионе, все 200 независимо запрашивают origin. С origin shield все 200 edge направляют промахи через один shield-узел. Shield имеет собственный кеш (бо́льший, чем у любого отдельного edge); он делает максимум один запрос к origin на URL на регион. SWR добавляет второй слой: даже когда shield промахивается, пользователи по-прежнему видят устаревший ответ, пока один запрос к origin в полёте. Оба слоя вместе означают: истечение популярного URL генерирует ровно один запрос к origin глобально, а не по одному на edge или на конкурентного пользователя.

Проследи

1/4

Новостной сайт испытывает всплеск трафика 10× из-за вирусной статьи. Срабатывает alarm нагрузки origin несмотря на CDN. Диагностируйте.

Step 1 of 4

Шаг 1: проверить cache hit rate CDN во время всплеска. Показывает 30% вместо обычных 90%. Что это означает?

Locked

Шаг 2: изучить заголовки ответа статьи. Обнаружено: Vary: User-Agent. Почему это катастрофично для cache hit rate?

Locked

Шаг 3: какая немедленная мера защиты пока деплоится исправление?

Locked

Шаг 4: добавить stale-while-revalidate в Cache-Control статьи. Как изменится поведение при следующем всплеске?

Викторина

Почему stale-while-revalidate важен для защиты от cache stampede?

Какой RFC?

Какой RFC определяет расширения Cache-Control stale-while-revalidate и stale-if-error?

Проследи

1/4

Диагностика: пользователи в двух регионах видят разные версии одной страницы через 2 часа после деплоя.

Step 1 of 4

Шаг 1: убедиться, что оба edge получили деплой. Проверить last-modified origin через каждый edge.

Locked

Шаг 2: как долго до естественного истечения кеша B?

Locked

Шаг 3: как принудительно обновить прямо сейчас?

Locked

Шаг 4: как предотвратить это в будущих деплоях?

stale-while-revalidate инвертирует stampede: все 1000 конкурентных пользователей получают устаревший ответ мгновенно, и никто не ждёт ориджин; edge отправляет один фоновый запрос ревалидации. Ориджин видит один запрос вместо 1000.

Вспомните перед уходом

01
Объясните проблему cache stampede и почему stale-while-revalidate предотвращает её.
02
При каких условиях НЕ следует использовать stale-while-revalidate?
03
Что делает stale-if-error и как отличается от stale-while-revalidate?

Итог

Проблема cache stampede (гремящего стада): популярная запись кеша истекает; много конкурентных пользователей генерируют одновременные запросы к origin; origin перегружен и может начать возвращать ошибки; эти ошибки кешируются. Четыре стратегии защиты: (1) origin shield, сворачивающий все edge-промахи в регионе в один запрос к origin; (2) stale-while-revalidate, отдающий устаревший ответ всем пользователям, отправляя один фоновый запрос ревалидации; (3) request coalescing на уровне приложения (singleflight — слияние параллельных запросов), предотвращающий конкурентные запросы к origin; (4) probabilistic early expiration, распределяющий ревалидации по времени. stale-if-error (RFC 5861) добавляет graceful degradation: при сбое origin отдавать последнюю кешированную версию до N секунд вместо распространения ошибок. Выбирайте окна устаревания соответственно требованиям к корректности контента — статья терпит 10 минут устаревания; цена в checkout — не терпит и 10 секунд. Теперь, когда видишь внезапный всплеск трафика к origin на хорошо закешированном маршруте, ищи синхронизацию времён истечения: если все edge закешировали ответ одновременно, они же одновременно и истекут.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

углубляется в

CDN: операции и observabilitysenior

встречается в165

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.