Архитектура бэкенда
Таймауты и хвостовая задержка: бюджеты, дедлайны и ловушка fan-out
Каждый сервис в цепочке здоров: любая зависимость отвечает за 10 мс на 99-м перцентиле. Страница продукта разветвляется к 100 из них параллельно и ждёт всех. И всё же 63% загрузок страницы занимают больше секунды. Ни один сервис не медленный. Медленна математика хвоста — и интуиция большинства инженеров про средние полностью её прячет.
Таймаут на каждом хопе, или зависание на каждом инциденте
Сетевой вызов без таймаута — баг, ждущий инцидента. Когда зависимость перестаёт отвечать (не отказывает — зависает), вызов без таймаута ждёт вечно, удерживая поток или соединение. Достаточно таких вызовов — и пул исчерпан, и одна медленная зависимость роняет здоровый сервис. Каждому исходящему вызову — запросу к БД, кешу, HTTP, RPC — нужен явный таймаут. Дефолт в большинстве клиентов — нет таймаута, и это худший дефолт в backend-инженерии.
Таймауты должны складываться в бюджет
Потаймауты на хоп, выставленные изолированно, лгут. Если у запроса SLA 1 с, но он вызывает сервис A (таймаут 1 с), который вызывает сервис B (таймаут 1 с), то когда B медленный, A ждёт всю секунду, а клиент уже сдался — A теперь делает работу, которую никто не ждёт. Лечение — бюджет таймаута (дедлайн): точка входа выделяет общий объём, и каждый хоп передаёт оставшееся время вниз. gRPC формализует это как дедлайн, распространяемый в метаданных; каждый сервис вычисляет свой локальный таймаут как min(локальный дефолт, оставшийся бюджет).
| Подход | Что использует каждый хоп | Режим отказа |
|---|---|---|
| Нет таймаутов | ∞ | Одна зависшая зависимость исчерпывает пулы, каскад |
| Независимые потаймауты на хоп | Фиксированное локальное значение | Внутренняя работа переживает терпение вызывающего |
| Распространяемый дедлайн (бюджет) | min(локальный, оставшийся) | Ограничен; внутренние хопы стоп, когда бюджет потрачен |
Почему хвост, а не среднее, — это SLA
Пользователи не переживают ваше среднее. Они переживают свой запрос, и медленные — то, что они запоминают и что срывает алерты. Поэтому задержку отчитывают перцентилями: p50 (медиана), p99 (1 из 100 хуже), p99.9. Разрыв между p50 и p99 — «хвостовая задержка», вызванная паузами GC, очередями, промахами кеша, конкуренцией за блокировки и повторами.
Опасность — усиление хвоста под fan-out. Если один запрос к сервису медленный с вероятностью p, то запрос, разветвляющийся к N сервисам параллельно и ждущий всех, медленный, если медленный любой один — вероятность 1 − (1 − p)^N. При посервисном p99 (p = 1%) и N = 100 это 1 − 0.99^100 ≈ 63%. Это число из Hook, прямо из The Tail at Scale Дина и Барросо: сервис, разветвляющийся к 2000, оставляет около 20% запросов дольше секунды, даже когда p99 каждого бэкенда в норме.
Защита хвоста: хеджирование, а не только таймауты
Таймаут ограничивает худший случай, но не улучшает типичный хвост. Техника из The Tail at Scale — хеджированные запросы: отправьте запрос, и если ответ не пришёл к задержке p95, отправьте вторую копию другой реплике и возьмите ту, что вернётся первой. Поскольку хеджируются только медленные ~5%, лишняя нагрузка мала (~5%), а хвост схлопывается — в измерениях Google отправка хеджа после задержки в 10 мс срезала p99.9 с 1800 мс до 74 мс ценой ~2% лишних запросов. Связанные запросы идут дальше: дубликаты говорят друг другу отмениться, как только один начал выполняться, обрезая зря потраченную работу.
Почему это работает
Почему не просто повтор по таймауту вместо хеджирования? Повтор срабатывает только после того, как вы уже заплатили полный таймаут — поэтому он улучшает доступность, но не задержку, а наивные повторы усиливают нагрузку ровно тогда, когда сервис и так в беде (шторм повторов). Хеджирование срабатывает спекулятивно на p95, до таймаута, поэтому атакует задержку напрямую; и поскольку оно ограничено медленным хвостом, добавляет ограниченную нагрузку. Эти двое дополняют друг друга: хеджируй, чтобы срезать хвост, повторяй с backoff и jitter, чтобы пережить сбои, и circuit breaker (следующий юнит), чтобы остановить оба, когда зависимость по-настоящему лежит.
Страница разветвляется к 100 независимым сервисам параллельно и ждёт всех. У каждого p99 = 10 мс (1% шанс, что вызов превысит это). Примерно какая доля загрузок страницы превысит 10 мс хотя бы на одном вызове?
Почему независимые потаймауты на хоп не защищают запрос с общим SLA?
Как хеджированный запрос снижает хвостовую задержку без большой лишней нагрузки?
- 01Почему каждому исходящему вызову нужен явный таймаут, и почему распространяемый дедлайн лучше независимых потаймаутов на хоп?
- 02Объясните усиление хвоста под fan-out с математикой и каноническими числами.
- 03Что такое хеджированные и связанные запросы, и почему их предпочитают повторам для среза хвоста?
Последняя остановка превращает запрос из «он возвращается» в «он возвращается вовремя». Каждому исходящему вызову нужен явный таймаут, потому что дефолт ждать вечно даёт одной зависшей зависимости исчерпать пулы и пойти каскадом. Но изолированные таймауты не складываются, поэтому они должны сворачиваться в распространяемый дедлайн, где каждый хоп использует min(локальный, оставшийся) — модель, которую стандартизирует gRPC. На масштабе среднее — ложь: пользователь чувствует свой запрос, поэтому отслеживай p99/p99.9, а fan-out усиливает хвост жестоко — 1 − (1 − p)^N достигает 63% медленных при p=1%, N=100. Таймауты ограничивают худший случай, но не чинят типичный хвост; хеджированные и связанные запросы, запущенные на p95, схлопывают его ценой пары процентов лишней нагрузки. Это мост к устойчивости: когда зависимость не просто медленна, а сбоит, таймаутов и хеджирования мало, и circuit breakers и bulkheads следующего юнита берут управление.
встречается в185
- Задачи, микрозадачи и scheduler.yield()middle
- Точность таймеров, троттлинг и фоновая работаmiddle
- Event loop Node.js: фазы, nextTick и задержка циклаsenior
- Стратегии рендеринга: SSG, SSR, ISR, streaming и гидратацияjunior
- SSG, SSR, ISR, streaming и RSC — как работает каждая стратегияmiddle
- Цена гидратации: selective, progressive, острова, resumabilitymiddle
- Core Web Vitals: что измеряют LCP, INP и CLSjunior
- LCP: четыре фазы, одна доминирующая стоимостьmiddle
- INP: input delay, processing, presentationmiddle
- Lab vs field: почему они расходятся и как использовать каждыйmiddle
- Трейдоффы метрик, RUM-атрибуция и цикл CI+полеsenior
- Общая картина: от URL до LCP до INP как эстафетаjunior
- Восемь слоёв трассировки: от service worker до второй навигацииmiddle
- Пять канонических поломок: где производство стабильно ломаетсяsenior
- Метод трёх треков: чтение трасс и построение системы мониторингаsenior
- Что такое индекс и как он ускоряет запросыjunior
- Leading-column rule: почему порядок столбцов в composite-индексе важенmiddle
- Partial, expression и covering-индексыmiddle
- Типы индексов: GIN, GiST, BRIN, Hash, Bloom и HOT-обновленияmiddle
- Index-only scan, Visibility Map и INCLUDEsenior
- Типичные сбои в продакшне и аудит индексовsenior
- Упражнение по проектированию индексов: стратегия полнотекстового поискаsenior
- EXPLAIN и планы выполнения: что решает планировщик и почемуjunior
- Типы сканирования: Seq, Index, Bitmap, Index-Onlymiddle
- Алгоритмы соединения и каскад ошибок оценки строкmiddle
- pg_statistic, ANALYZE и производственная наблюдаемостьmiddle
- Расширенная статистика: исправление ошибок оценки для коррелированных колонокsenior
- Кеш планов, настройка константных стоимостей и внутренности планировщикаsenior
- Производственные режимы отказа и стабильность плановsenior
- Connection pool: зачем амортизировать стоимость backend Postgresjunior
- Режимы PgBouncer: session, transaction и statementmiddle
- Размер пула: формула (ядра × 2) + шпинделей и двухуровневый стекmiddle
- Исчерпание пула и idle-in-transaction: сценарий отказа в 3 ночиmiddle
- Миграция на transaction mode: план развёртывания и prepared statements в PgBouncer 1.21middle
- Процессная модель Postgres и почему увеличение max_connections снижает производительностьsenior
- Ландшафт пулеров 2026, serverless connection storms и полная таксономия отказовsenior
- ADD COLUMN: мгновенно в PG 11+ против перезаписи в старом Postgresjunior
- Режим отказа очереди блокировок: почему мгновенный DDL может заморозить базуmiddle
- Безопасные DDL-паттерны: NOT VALID, CONCURRENTLY и исправления небезопасных операцийmiddle
- Таксономия сбоев миграций и дисциплина продакшнаsenior
- Выбор ключа шарда: стратегии hash, range, list и directorymiddle
- Ко-локация и Citus: инвариант, делающий шардирование пригодным к использованиюmiddle
- Режим отказа hot shard: обнаружение, изоляция и долгосрочная политикаmiddle
- Онлайн-решардинг, 2PC и операционная стоимость шардированияsenior
- Семь актов: от CREATE TABLE до Citusjunior
- Акты 1–3 в глубину: схема, индексы и статистика планировщикаmiddle
- Акты 4–6 в глубину: MVCC bloat, connection pooling и безопасные миграцииmiddle
- Акт 7 в глубину: шардинг, co-location и семиуровневый каскад трейдоффовmiddle
- Наблюдаемость, антипаттерны и производственный триажsenior
- Биты в проводеjunior
- Математика задержкиmiddle
- Bufferbloat и перегрузкаsenior
- Граница физического уровняsenior
- Номера последовательности и состояние соединенияmiddle
- Управление потоком и перегрузкойmiddle
- BBR, производственная наблюдаемость и за пределами TCPsenior
- CDN: контент по соседствуjunior
- Anycast и GeoDNS: маршрутизация к ближайшему edgemiddle
- Многоуровневый кеш и Cache-Controlmiddle
- Заголовок Vary и cache keysmiddle
- Stale-while-revalidate и cache stampedesenior
- Edge workers и edge-side compositionsenior
- CDN: операции и observabilitysenior
- WebSocket: HTTP-апгрейд до постоянного соединенияjunior
- WebSocket vs SSE vs long-polling: выбор правильного транспортаmiddle
- Backpressure в WebSocket: когда клиенты не успеваютmiddle
- Реконнект: jittered backoff, thundering herd, восстановление сообщенийsenior
- WebSocket в масштабе: HTTP/2 мультиплексирование, permessage-deflate, C10Msenior
- WebSocket в production: прокси, безопасность и распределённая архитектураsenior
- Что делают обратные проксиjunior
- Алгоритмы балансировки: от round-robin до power-of-two-choicesmiddle
- L4 vs L7 балансировка и сохранение IP клиентаmiddle
- Health checks, connection draining и slow startmiddle
- Retry-бури, circuit breakers и load sheddingsenior
- Устойчивая архитектура LB: anycast, zone-aware маршрутизация и observabilitysenior
- Почему QUIC, а не TCP+TLSjunior
- QUIC-потоки и head-of-line blockingjunior
- Объединённое рукопожатие и 1-RTTmiddle
- Connection ID и миграция сетиmiddle
- Обнаружение потерь и управление перегрузкойmiddle
- Возобновление 0-RTT и шифрование пакетовsenior
- Развёртывание и стоимость CPUsenior
- DDoS: что это и почему работаетjunior
- Атаки усиления и истощение состоянияmiddle
- Ограничение скорости: алгоритмы и архитектураmiddle
- WAF, межсетевые экраны, mTLS и HSTSmiddle
- Отравление DNS-кэша и BGP-перехватsenior
- Эшелонированная защита и экономика атакsenior
- Двенадцать слоёв: один URL, семь действующих лицjunior
- DNS, TCP, TLS по очереди: куда уходят миллисекундыmiddle
- Критический путь рендеринга и Core Web Vitalsmiddle
- Перехват прокси и шлюзы безопасности: rate limiter, WAF, mTLSmiddle
- Альтернативные пути: QUIC 0-RTT, WebSocket upgrade, миграция соединенияmiddle
- Наблюдаемость: распределённые трейсы, USE/RED и семплированиеsenior
- Устойчивость: каскадные повторы, circuit breakers и error budgetsenior
- Что такое три сигнала: метрики, логи, трейсыjunior
- Метрики и cardinality: cost-модель time-series databasemiddle
- Логи и объём: cost-модель структурного логированияmiddle
- Трейсы и сэмплирование: cost-модель distributed tracingmiddle
- Join-ключи и exemplar''''ы: как три сигнала становятся компонуемымиmiddle
- Observability 2.0: широкие события и сдвиг стоимостиsenior
- Режимы сбоя и инженерная практика: cardinality budget''''ы, PII и сэмплированиеsenior
- Зачем нужны структурные логи: дневник против таблицыjunior
- Схема продакшн-лога: поля, которые несёт каждая строкаmiddle
- Log levels и маршрутизация алертовmiddle
- Стратегии sampling и стоимость логовmiddle
- PII-редакция и log injectionsenior
- Propagation trace-контекста в логахsenior
- OTel Logs Data Model и audit-логи как подсистемаsenior
- Сигналы OTel, Semantic Conventions и проводной формат OTLPmiddle
- Авто-инструментирование и ручные спаны: правило 80/20 в OTelmiddle
- Collector OTel: receivers, processors, exporters и паттерны развёртыванияmiddle
- Стратегии сэмплирования: head, tail и parent-basedmiddle
- Vendor-нейтральность, eBPF-инструментирование, Operator и OTel в браузере и serverlesssenior
- Эксплуатация OTel Collector: надёжность, version skew, режимы отказа и управлениеsenior
- RED и USE: два чек-листа, одна дисциплина триажаjunior
- Инструментация RED в Prometheus: счётчики, гистограммы и дисциплина cardinalitymiddle
- USE на Linux: CPU, память, диск, сеть и PSImiddle
- Golden signals, структура дашборда и auto-RED в service meshmiddle
- Cardinality как драйвер затрат: label, PII, exemplars и семплированиеmiddle
- Native histograms, SLO и паттерны production-сбоевmiddle
- Выбор SLI и SLO-целей: отношения, не ощущенияmiddle
- Multi-window multi-burn-rate-алертинг: почему AND лучше ORmiddle
- Error budget policy, latency SLO и составные journeysmiddle
- Iceberg SLI, математика составного SLO и SLA vs SLOsenior
- Flame graph: читаем картинку, которая показывает, куда ушло времяjunior
- Sampling vs instrumentation profiling: почему 99 Гц побеждает в productionmiddle
- Типы профилей: CPU, память, off-CPU, mutex — какой когда братьmiddle
- Continuous profiling: always-on flame graphs с eBPF и корреляцией trace-idmiddle
- Как flame graph строится из сэмплов и как использовать его в productionmiddle
- Linux perf, внутренности eBPF, PGO и ограничения sampling''''аsenior
- Profiling в production: безопасность, war stories, OTel profiles и дизайн инфраструктурыsenior
- Debugging-воронка: SLO → RED → trace → profilejunior
- Архитектура OTel: один SDK, четыре сигнала, один wire-форматmiddle
- Экономия на observability: удерживаем затраты в пределах 5% inframiddle
- Масштаб, безопасность и ROI наблюдаемых системsenior
- Сначала профиль: измерь куда реально уходит времяjunior
- Закон Амдала и self-time: потолок любого ускорения, которое ты можешь выпуститьmiddle
- Измерительный цикл: микробенч, макробенч, prod-профиль, эффект наблюдателяmiddle
- Чтение флейм-графов: формы, профайлеры по языкам и 60-секундный сканmiddle
- Статистические baseline''''ы: почему один запуск — не измерениеmiddle
- История профайлеров и ловушки микробенчей: от Кнута до GWPsenior
- Hardware counters, профили холодного старта и безопасность профилейsenior
- Непрерывное профилирование в масштабе: затраты, CI-гейты, корреляция с трейсами и антипаттерныsenior
- Что делает путь горячим: симптом против причиныjunior
- Пять форм hotspot''''а: CPU, аллокации, кэш, лок, syscallmiddle
- Чтение parent и child chains: где применять правкуmiddle
- JIT deopt, цикл fix-and-verify и PR-time профилированиеmiddle
- Аппаратные счётчики и Intel TMA: диагностика подкатегорийsenior
- False sharing и горячие пути нативных мостовsenior
- Горячие пути в production: безопасность, хвостовая латентность и происхождение инструментовsenior
- Иерархия памяти: почему расстояние важнее числа операцийjunior
- Row-major vs column-major: порядок доступа и разрыв в 9xjunior
- Branch prediction: 10–30 циклов штрафа за неожиданный ifmiddle
- Hardware prefetcher, TLB и memory-level parallelismsenior
- Основы GC: за что рантайм берёт налогjunior
- Алгоритмы GC: поколенческая гипотеза, concurrent marking и write barriermiddle
- GC tradeoffs: пауза, throughput, память и давление аллокацийmiddle
- Настройка GC: пейсинг, форма кучи и наблюдаемость аллокацийmiddle
- Внутреннее устройство GC: tri-color инвариант, write barriers и глубокое погружение в рантаймыsenior
- GC в production: наблюдаемость, безопасность, edge cases и управление флотомsenior
- N+1: одна логическая операция, много round-trip''''овjunior
- Семейства фиксов: JOIN, IN, preload и DataLoadermiddle
- Обнаружение N+1: query logs, APM traces и CI gatesmiddle
- DataLoader: батчинг по дереву резолверовmiddle
- Кросс-протокольный N+1: HTTP fan-out и Redis MGETmiddle
- N+1 в масштабе: исчерпание пула, изменения планов и денормализацияsenior
- Batching: амортизируй фиксированную цену каждой операцииjunior
- Окно батчинга: размер и время ожиданияmiddle
- Batching в Kafka и Postgresmiddle
- io_uring и наблюдаемость пакетированияmiddle
- От Nagle до io_uring: эволюция пакетированияmiddle
- Backpressure, изоляция сбоев и безопасность батчей в продакшенеsenior
- Что на самом деле стоит bundle: download, parse, compile, executejunior
- Core Web Vitals: LCP, INP и CLSmiddle
- Code splitting: route-level, component-level, vendor splittingmiddle
- Tree shaking и compression: удаляем то, что не используемmiddle
- Third-party scripts: тихий убийца бюджетаmiddle
- CI enforcement и RUM: делаем бюджеты рабочимиmiddle
- V8 JIT-пайплайн, HTTP-приоритеты и безопасность bundlesenior
- Цикл performance: дисциплина, а не проектjunior
- Классификация и исправление: сопоставление family bottleneck с методамиmiddle
- Observability-стек и CI gates: ловить регрессии до выпускаmiddle
- От инцидента к enforcement: SLO burn до верифицированного исправления за 35 минутmiddle
- Культура, экономика и масштаб performancesenior