Наблюдаемость OBS · 06 · 07

Production-сбои propagation, span links и платформенный дизайн

Баги propagation молчат: Uber, GitHub, Slack, Datadog — дашборды показывали трейсы, просто не те. Span-links решают fan-in и async follow-ups. Orphan rate и invalid-traceparent count — мета-слой, ловящий регрессии до пользователей.

OBS Senior ◷ 18 min

Уровень

ОсновыJuniorMiddleSenior

GitHub держал регрессию propagation целый квартал, когда 50% внутренних трейсов были orphan-спанами. Дашборды показывали трейсы всё это время. Никто не заметил, пока инженер не проверил orphan-span rate в рутинном ревью.

Реальные production-сбои propagation

Uber 2019: частичный rollout OTel привёл к тому, что 30% трейсов обрывались на границе между инструментированными и неинструментированными сервисами. Постмортем обязал добавить gate «ни один сервис не выходит в prod без W3C propagation», проверяемый в CI. Паттерн: инструментированные сервисы отдают идеальные спаны; неинструментированные отдают orphan-спаны; обе группы показывают разную глубину трейсов на дашбордах, но автоматических алертов на граничный сбой нет.

GitHub 2022: кастомная обёртка HTTP-клиента обходила хуки OTel и молча дропала traceparent у половины внутренних сервисов целый квартал — пока кто-то не заметил, что orphan-span rate вырос с 1% до 50%. Фикс — одна строка: обернуть клиент в OTel-aware версию. Урок: кастомные обёртки — самый частый пробел propagation в зрелых сервисах. Фикс всегда однострочный; найти его занимает квартал.

Slack 2023: tail-sampling Collector’ы упали по OOM и снесли pipeline трейсинга во время крупного инцидента — именно тогда, когда трейсинг был нужнее всего. Постмортем добавил лимиты num_traces и отдельный always-keep-тир для высокоприоритетных трейсов. Пробел мониторинга: health-метрики OTel Collector не были ни на одном SLO-дашборде.

Datadog 2024 (customer report): крупная Java-нагрузка использовала thread pool, который не переносил контекст через submitted tasks, поэтому 80% трейсов background-задач были orphan-спанами. Фикс: переключиться на executor с поддержкой CurrentTraceContext. Баг существовал месяцами; обнаружен в ходе квартального ревью orphan-rate.

Общий паттерн: баги propagation молчат. Дашборды продолжают показывать трейсы. Единственный механизм обнаружения — метрика orphan-span rate, и эта метрика должна быть на дашборде и желательно на алерте — OTel defaults её не выставляет автоматически.

Это не всплески на 2%: 30–80% трейсов были молча разорваны, пока дашборды продолжали показывать трейсы, и это не замечали месяцами, вплоть до целого квартала. Размер разрыва от нормы ≤1% — ровно та причина, по которой orphan-span rate нужен собственный алерт.

Верхний ряд (сломано): кастом-клиент дропает traceparent, поэтому payment не находит входящий контекст и стартует свежий трейс T2 — его спан становится orphan, связь parent с auth разорвана, и один логический запрос теперь выглядит как два несвязанных трейса. Нижний ряд (фикс): подставьте OTel-aware клиент, чтобы он передавал заголовок; payment продолжает трейс T1 с parent=auth.

Observability для самой propagation

Ключевые health-метрики propagation:

Метрика	Норма	Сигнал когда
`orphan_span_rate` по `service.name`	<1% (только entry-points)	Внутренний сервис >5% → регрессия propagation
`invalid_traceparent_received` count	~0	Любой sustained rate → сломанный upstream
`trace_id_per_second`	Пропорционально RPS × sample_rate	Резкий рост → свежие trace-id (propagation потеряна)
`broken_parent_count`	<0.5%	Спаны, чей parent-id не встречается ни в одном другом спане того же трейса

Здоровое состояние	Порог	Действие по алерту
Orphan-спаны для внутренних сервисов	<1%	Page если >5% в течение 10 мин для конкретного сервиса
invalid_traceparent_received	<0,01%	Тикет если ненулевой rate держится >5 мин
broken_parent_count	<0,5%	Тикет если >2% в течение 10 мин

Span links: когда дерево родитель-потомок ломается

Модель родитель-потомок предполагает линейную причинность: A вызывает B, B вызывает C. Это ломается в трёх сценариях:

Batch-обработка: consumer вытягивает 1 000 сообщений из Kafka и обрабатывает их в одном батче. Нет единственного осмысленного «родителя» — 1 000 входящих trace-контекстов питают один batch-спан.
Fan-in: несколько параллельных подзадач сходятся в точке join. Каждая подзадача — потомок собственной ветви; у точки join несколько причинных участников.
Async follow-ups: исходящий запрос завершается и возвращает ответ пользователю, но порождает follow-up, который выполняется спустя часы. Контекст исходного запроса закрыт; follow-up’ам нужна причинная связь без того, чтобы быть потомками «мёртвого» спана.

Span-links в OTel решают всё это: спан объявляет дополнительные ссылки на SpanContext, с которыми он причинно связан, но от которых не наследуется. Tracing-бэкенды визуализируют links как пунктирные линии рядом с деревом родитель-потомок.

Senior-паттерн: любой трейс длиннее 30 секунд или шире 100 спанов — кандидат на рефакторинг с span-links. Разбейте длинный workflow на sub-трейсы, каждый из которых умещается в окно принятия решения tail-sampler’а, и используйте links для сохранения причинной цепочки. Трейсы остаются небольшими, sampler’у хорошо, следственная связь сохраняется.

Long-running трейсы и проблема 30 минут

Tail-sampler’ы имеют окна принятия решения 30 с–5 мин. Batch-задача, работающая 30 минут, отдаёт спаны уже после закрытия окна; поздние спаны выглядят для sampler’а как orphan-спаны.

Два production-паттерна:

Разбить работу: разделить длинные workflows на sub-трейсы, связанные span-links, каждый умещается в окно принятия решения. Чистая архитектура, корректная по построению.
Поддержка поздних спанов бэкендом: Tempo, Honeycomb и Datadog поддерживают поздно прибывшие спаны до 24 ч после старта трейса. Для long-running трейсов пропустить tail-sampling; использовать head sampling на 100% для batch-нагрузок. Практический retrofit для legacy batch-задач.

Окно принятия решения — это рычаг, который нужно настраивать, когда batch-нагрузки ломают tail-sampling. Увеличение его вверх увеличивает RAM Collector’а; правильный ответ чаще всего — разбить работу.

Проследи

1/5

Обнаружен orphan rate 0,5% для внутреннего сервиса. Найдите первопричину.

Step 1 of 5

Шаг 1: orphan rate 0,5% — норма или сигнал?

Locked

Шаг 2: фильтр orphan-спанов по service.name. Какой паттерн?

Locked

Шаг 3: один конкретный сервис — источник. Что искать во входящем трафике?

Locked

Шаг 4: traceparent отсутствует в запросах от одного upstream client'а. Почему?

Locked

Шаг 5: долгосрочный фикс?

Найди ошибку

Диагностика сломанного трейса по выводу tracing-бэкенда

log

# Запрос: trace_id == "4bf92f3577b34da6a3ce929d0e0e4736"
# Результат: 7 спанов

#  сервис             span_id           parent_id           длительность   статус
1  api-gateway       1a2b3c4d5e6f7890  -                   18ms           OK
2  auth              7890abcdef123456  1a2b3c4d5e6f7890    14ms           OK
3  inventory         abcdef1234567890  1a2b3c4d5e6f7890    1200ms         OK
4  payment           fedcba0987654321  -                   80ms           OK    # ORPHAN
5  postgres-client   1111222233334444  fedcba0987654321    55ms           OK
6  email-job         5555666677778888  -                   240ms          OK    # ORPHAN
7  audit-log         9999aaaabbbbcccc  -                   12ms           OK    # ORPHAN

# Также отдельные orphan-трейсы с одним спаном:
# trace_id 9981a... сервис payment, 78ms
# trace_id ab32c... сервис email-job, 280ms
# trace_id ff8e1... сервис audit-log, 14ms

Трейс содержит 7 спанов, но 3 из них — orphan (нет parent_id), и существуют 3 отдельных трейса с одним спаном от тех же сервисов. Что происходит?

Answer

Диагноз: propagation сломана на трёх конкретных сервисах — payment, email-job, audit-log. Строки 'orphan span внутри трейса' (4, 6, 7) говорят о том, что эти сервисы получили корректный входящий traceparent (они появляются под тем же trace_id), но их auto-instrumentation не регистрирует извлечённый контекст — у них должен быть parent_id, указывающий на api-gateway или inventory, но его нет. Тем временем отдельные single-span orphan-трейсы от тех же сервисов говорят о том, что для других запросов traceparent теряется ещё на входе и генерируется свежий trace-id. Два режима сбоя на тех же сервисах. Root cause: у payment, вероятно, кастомная HTTP-обёртка в обход OTel. email-job — Kafka consumer, где extract на стороне consumer не реализован — consumer видит trace-id, но не связывает его как parent. audit-log — fire-and-forget writer, работающий в async-контексте, не привязанном к запросу. Путь фикса: (a) для payment — заменить кастомный HTTP-клиент на OTel-инструментированный; (b) для email-job — добавить Kafka consumer instrumentation, чтобы consumer извлекал traceparent из заголовков сообщений; (c) для audit-log — использовать context.bind вокруг audit-вызова. Добавить CI-тест: end-to-end запрос через gateway → inventory → payment → email-job → audit, утверждать 5 спанов с 1 trace-id и связанной цепочкой parent_id.

Спроектируй

Спроектируйте end-to-end trace propagation для новой платформы с 30 микросервисами, браузерным frontend, Kafka backbone, service mesh и tier tail-sampling collector.

Polyglot: 12 сервисов Node.js, 10 Java, 5 Go, 3 Python.
Браузерный frontend (React) делает fetch-вызовы к API gateway.
Kafka используется для async-обмена между 8 сервисами.
Service mesh: Linkerd (Linux) для east-west HTTP и gRPC.
Sampling: 100% ошибок, 100% медленных (>2 с), 1% baseline.
On-call должен видеть любой пользовательский запрос как единый трейс в течение 30 с после завершения.

Reference answer

Слой 1 — стандарт propagator. Везде мандировать OpenTelemetry SDK; propagator по умолчанию — составной W3C TraceContext + Baggage. Убрать B3 из исходящих; принимать B3 на входящих в течение 90-дневного deprecation. SDK по языку: opentelemetry-js (Node и браузер), opentelemetry-java (Java), opentelemetry-go (Go), opentelemetry-python (Python). Браузер: opentelemetry-js-browser SDK с fetch instrumentation; ограничить propagation same-origin и явным allowlist CORS-origins, чтобы traceparent не утекал к третьим сторонам. Слой 2 — HTTP propagation. Auto-instrumentation на каждом сервисе: регистрировать OTel до старта app-кода (Node: флаг -r; Java: javaagent; Go: явный init; Python: opentelemetry-instrument). Service mesh (Linkerd) прозрачно проксирует заголовки и отдаёт собственные mesh-hop спаны для полной видимости сети. Слой 3 — Kafka propagation. Продюсер: OTel Kafka instrumentation инжектирует traceparent в заголовки record. Consumer: извлекает traceparent при poll, стартует новый спан с parent = span-id продюсера. Span-links, а не direct parent-child, когда consumer батчит 100 сообщений. Слой 4 — async-boundary дисциплина. Checklsit код-ревью: любой callback, setTimeout, setImmediate, queueMicrotask, worker dispatch или Promise chain через логическую границу должны быть обёрнуты context.bind или аналогом. Кастомные thread pool'ы должны использовать OTel context-aware executors. Lint-правило флагирует raw setTimeout в scope HTTP-handler'а. Слой 5 — collector tier. OTel Collector как stateless agent layer (1 на node, DaemonSet) + stateful tail-sampling tier (5 реплик) за load-balancing exporter (хэш по trace-id). Окно принятия решения 30 с. Memory budget на tail-sampler: 4 GB при ожидаемых 10k req/s aggregate. Политики: хранить все ошибки, все трейсы >2 с end-to-end, 1% probabilistic для всего остального. Слой 6 — бэкенд. Tracing backend (Tempo, Honeycomb, Datadog, Jaeger) принимает sampled спаны; retention 7 дней fine-grained, 30 дней sampled summary; long-term архив в object storage. Слой 7 — observability propagation. Метрики: orphan_span_rate по сервису, invalid_traceparent_count, broken_parent_count, trace_id_per_second. Алерт когда orphan rate конкретного внутреннего сервиса превышает 5% в течение 10 минут. Dashboard panel показывает propagation health рядом с RED + USE. Слой 8 — CI-тесты. End-to-end propagation test: цепочка из 5 сервисов, отправить запрос, утверждать >4 спанов связанных одним trace-id. Запускать на каждый PR, затрагивающий HTTP, Kafka или worker-код.

Should cover

W3C TraceContext + Baggage по умолчанию везде; B3 только для legacy interop, deprecated.
OTel SDK регистрируется до старта приложения в каждом сервисе; CI gate это проверяет.
Kafka, gRPC, mesh автоматически несут traceparent через auto-instrumentation.
Async-границы (setTimeout, workers, callbacks) требуют явной дисциплины context.bind.
Tail-sampling collector с load-balancing exporter для консистентности по trace-id.
Правила sampling: 100% ошибок + 100% медленных + 1% baseline.
Propagation имеет собственный observability-слой (orphan-span rate, invalid-traceparent count).

Пороги health propagation

Здоровый orphan-span rate (внутренние сервисы): ≤1% от всех спанов
Здоровый invalid_traceparent rate: ≤0,01%
Здоровый broken-parent rate: ≤0,5%
Порог алерта: orphan rate внутреннего сервиса: >5% в течение 10 мин
GitHub 2022: orphan rate в момент обнаружения регрессии: 50% (от baseline 1%)
Время обнаружения регрессии GitHub без алертинга: >1 квартала

Викторина

Batch-процессор вытягивает 1 000 сообщений из Kafka и обрабатывает их в одной транзакции. Инженер моделирует это как один родительский спан с 1 000 дочерних спанов, по одному на сообщение. После деплоя tail-sampling Collector падает по OOM. Каков архитектурный фикс?

Викторина

Production-команда добавляет алертинг на orphan-span rate. Алерт срабатывает для 'email-job' на уровне 6% (baseline 0,5%). Каков первый диагностический шаг?

Вспомните перед уходом

01
Объясните, зачем существуют span-links, и когда senior-инженер выбирает их вместо отношений родитель-потомок.
02
Опишите три health-метрики propagation, которые должен мониторить каждый production tracing-деплой, и пороги алертов.
03
Опишите 8-уровневый платформенный дизайн end-to-end propagation для polyglot-системы с 30 сервисами, Kafka, service mesh и tail sampling.

Итог

Production-сбои propagation молчат: Uber (30% сломанных трейсов месяцами), GitHub (50% orphan rate целый квартал), Slack (Collector OOM во время инцидента) и клиенты Datadog (80% orphan-спанов у background-задач) — все сбоили именно так. Общий паттерн: дашборды показывали трейсы, просто не связанные, и ни одна метрика не алертила на разрыв. Фикс — наблюдать health propagation через собственные RED-эквивалентные метрики: orphan-span rate по сервису, invalid-traceparent count, broken-parent rate — и алертить по ним. Span-links решают случаи, когда дерево родитель-потомок не работает: batch fan-in, async follow-ups, workflows шире, чем окно принятия решения. Long-running трейсы необходимо разбивать на sub-трейсы, связанные span-links, умещающиеся в окно Collector’а. Propagation — невидимый фундамент, от которого зависит каждая другая observability-фича; воспринимайте её health как первоклассную production-метрику. Теперь, принимая новый сервис или ревьюя tracing-настройку, твой первый вопрос — «какой orphan-span rate?» — потому что это единственное число, показывающее, крепок ли фундамент propagation или тихо рассыпается.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Async context на разных языках, service mesh, миграция B3 и безопасностьsenior

открывает

Flame graph: читаем картинку, которая показывает, куда ушло времяjunior

встречается в40

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.