observability

Наблюдаемость

Как видеть, что делает работающая система, — через логи, метрики и трейсы, — чтобы, когда что-то сломалось в три ночи, ты действительно мог понять причину.

9 юнитов·87 уроков·~50 ч

Начать трек →

С нуля

Перед senior-материалом: что вообще такое наблюдаемость (observability) и горстка слов, которые остальной трек считает уже знакомыми.

01 С нуля: что такое наблюдаемость на самом деле 10 мин

Три pillar'а: метрики, логи и трейсы

Метрики, логи и трейсы — каждый отвечает на свой вопрос дешевле всего. Join-ключи и exemplar'ы делают их компонуемыми в единую навигационную поверхность.

01 Что такое три сигнала: метрики, логи, трейсы 10 мин 02 Метрики и cardinality: cost-модель time-series database 14 мин 03 Логи и объём: cost-модель структурного логирования 12 мин 04 Трейсы и сэмплирование: cost-модель distributed tracing 13 мин 05 Join-ключи и exemplar''''ы: как три сигнала становятся компонуемыми 12 мин 06 Observability 2.0: широкие события и сдвиг стоимости 13 мин 07 Режимы сбоя и инженерная практика: cardinality budget''''ы, PII и сэмплирование 14 мин 08 Три pillarа: тест с выбором ответа 13 мин 09 Три pillarа: тест на свободное воспроизведение 14 мин 10 Три pillarа: чтение кода и конфигов 14 мин 11 Три pillarа: построй навигационную поверхность observability 240 мин

Структурное логирование: схема, levels, редакция

Почему продакшн-логи в 2026 — это JSON-или-ничего, что реально содержит рабочая схема лога, как levels и sampling контролируют счёт, и почему PII-дисциплина и log injection — это инженерные заботы первого порядка, а не доп. опции.

01 Зачем нужны структурные логи: дневник против таблицы 8 мин 02 Схема продакшн-лога: поля, которые несёт каждая строка 12 мин 03 Log levels и маршрутизация алертов 10 мин 04 Стратегии sampling и стоимость логов 12 мин 05 PII-редакция и log injection 12 мин 06 Propagation trace-контекста в логах 12 мин 07 OTel Logs Data Model и audit-логи как подсистема 14 мин 08 Структурное логирование: тест с выбором ответа 13 мин 09 Структурное логирование: тест с краткими ответами 14 мин 10 Структурное логирование: чтение кода и логов 14 мин 11 Структурное логирование: построй production-pipeline логирования 240 мин

OpenTelemetry: API, SDK, Collector, OTLP

Четыре части OTel — API, к которому обращается код, SDK, собирающий телеметрию, Collector, обрабатывающий и маршрутизирующий её, и OTLP как wire-формат — и как многослойная модель даёт инструментировать однажды и менять backend без переписывания кода.

01 Что такое OpenTelemetry: API, SDK, Collector, OTLP 10 мин 02 Сигналы OTel, Semantic Conventions и проводной формат OTLP 12 мин 03 Авто-инструментирование и ручные спаны: правило 80/20 в OTel 11 мин 04 Collector OTel: receivers, processors, exporters и паттерны развёртывания 13 мин 05 Стратегии сэмплирования: head, tail и parent-based 13 мин 06 Vendor-нейтральность, eBPF-инструментирование, Operator и OTel в браузере и serverless 14 мин 07 Эксплуатация OTel Collector: надёжность, version skew, режимы отказа и управление 15 мин 08 OTel: тест с множественным выбором 13 мин 09 OTel: тест на свободное припоминание 13 мин 10 OTel: чтение конфигов и трейсов 14 мин 11 OTel: построй vendor-нейтральный пайплайн 240 мин

RED и USE: две половины каждого дашборда

Почему RED (Rate, Errors, Duration) описывает сервис со стороны клиента, USE (Utilization, Saturation, Errors) описывает ресурсы со стороны ядра, и почему senior-инженеры запускают оба чек-листа — плюс налог на cardinality, который наказывает за наивные label.

01 RED и USE: два чек-листа, одна дисциплина триажа 10 мин 02 Инструментация RED в Prometheus: счётчики, гистограммы и дисциплина cardinality 14 мин 03 USE на Linux: CPU, память, диск, сеть и PSI 14 мин 04 Golden signals, структура дашборда и auto-RED в service mesh 12 мин 05 Cardinality как драйвер затрат: label, PII, exemplars и семплирование 14 мин 06 Native histograms, SLO и паттерны production-сбоев 16 мин 07 RED и USE: тест с выбором ответа 13 мин 08 RED и USE: тест на свободное припоминание 13 мин 09 RED и USE: чтение PromQL и сигналов 14 мин 10 RED и USE: построить дашборд и провести триаж инцидента 240 мин

SLI, SLO и error budget: надёжность в числах

SLI — отношение good/total; SLO — цель; error budget = 1 − SLO. MWMBR-алертинг, error budget policy, SLO-платформы и культурный паттерн внедрения, превращающий арифметику в решения.

01 SLI, SLO и error budget: надёжность в числах 12 мин 02 Выбор SLI и SLO-целей: отношения, не ощущения 14 мин 03 Multi-window multi-burn-rate-алертинг: почему AND лучше OR 15 мин 04 Error budget policy, latency SLO и составные journeys 16 мин 05 SLO-платформы и 90-дневный rollout 13 мин 06 SLO на малом трафике и математика burn rate из первых принципов 17 мин 07 Iceberg SLI, математика составного SLO и SLA vs SLO 16 мин 08 Продакшн-отказы SLO, самонаблюдаемость, безопасность и общая картина 18 мин 09 SLO и error budget: тест с выбором ответа 13 мин 10 SLO и error budget: тест на воспроизведение 14 мин 11 SLO и error budget: чтение PromQL и правил 14 мин 12 SLO и error budget: заинструментируй путь от начала до конца 240 мин

Trace propagation: заголовки, сшивающие сервисы воедино

Почему W3C-заголовок traceparent — это 55-байтная несущая строка, превращающая 50 разрозненных сервисов в один навигируемый трейс, как baggage переносит контекст через async-границы, и как head vs tail sampling решают, какие трейсы выживут.

01 Что такое trace propagation и почему сломанная propagation хуже отсутствия трейсов 10 мин 02 traceparent и tracestate: полный формат W3C-заголовка 13 мин 03 Baggage и async-границы: перенос контекста через очереди и callback''''и 14 мин 04 Head sampling и tail sampling: кто решает, какие трейсы выживают 13 мин 05 Согласованность sampling и tier tail-sampling Collector 14 мин 06 Async context на разных языках, service mesh, миграция B3 и безопасность 16 мин 07 Production-сбои propagation, span links и платформенный дизайн 18 мин 08 Trace propagation: тест с множественным выбором 13 мин 09 Trace propagation: тест на свободное воспроизведение 14 мин 10 Trace propagation: чтение кода и заголовков 14 мин 11 Trace propagation: сшей сломанную систему в один trace 240 мин

Profiling: куда реально ушли CPU и байты

Как sampling profiler превращают непропорциональную долю CPU в flame graph, читаемый за 60 секунд, как eBPF и continuous profiling смотрят за production с 2-5% overhead, и как on-CPU vs off-CPU профили отвечают на разные вопросы об одном медленном запросе.

01 Flame graph: читаем картинку, которая показывает, куда ушло время 12 мин 02 Sampling vs instrumentation profiling: почему 99 Гц побеждает в production 13 мин 03 Типы профилей: CPU, память, off-CPU, mutex — какой когда брать 15 мин 04 Continuous profiling: always-on flame graphs с eBPF и корреляцией trace-id 16 мин 05 Как flame graph строится из сэмплов и как использовать его в production 15 мин 06 Linux perf, внутренности eBPF, PGO и ограничения sampling''''а 18 мин 07 Profiling в production: безопасность, war stories, OTel profiles и дизайн инфраструктуры 18 мин 08 Profiling: тест с выбором ответа 13 мин 09 Profiling: тест на свободное припоминание 14 мин 10 Profiling: чтение профилей и конфигов 14 мин 11 Profiling: от SLO до flame graph 240 мин

Соединяем всё: production-observability-история

Как RED + USE + SLO + traces + profiles складываются в одну debugging-петлю, как OpenTelemetry унифицирует четыре сигнала через один SDK и один wire-format, и что 'наблюдаемость, которая окупается' реально значит на production-масштабе.

01 Debugging-воронка: SLO → RED → trace → profile 10 мин 02 Архитектура OTel: один SDK, четыре сигнала, один wire-формат 14 мин 03 Экономия на observability: удерживаем затраты в пределах 5% infra 13 мин 04 Петля инцидента: от пейджера до постмортема до предотвращения 14 мин 05 Масштаб, безопасность и ROI наблюдаемых систем 18 мин 06 Observability-капстоун: синтез с множественным выбором 14 мин 07 Observability-капстоун: free-recall-обзор 13 мин 08 Observability-капстоун: чтение сигналов и запросов 14 мин 09 Observability-капстоун: инструментируй сервис и продебажь инцидент 240 мин

Проекты по этому треку

Guided-проекты, которые закрепляют изученное здесь.

◆ Проекты

Совместные курсоры

Показать живой курсор и выделение каждого подключённого пользователя в общем документе, без конфликтов, через WebSocket.

◆ Проекты

Конкурентный сервис ингеста на Go

Собери конкурентный воркер ингеста/фан-аута на Go — а затем эксплуатируй его: ограничь работу, примени backpressure, сделай вызовы downstream устойчивыми к отказам, выкати в минимальном контейнере и разбери инцидент с утечкой горутин, пока он не съел твою память.

◆ Проекты

Сервис RAG с опорой на источники

Демо RAG, отвечающее по корпусу, собирается легко; сервис RAG, которому ты доверишь живых пользователей, — нет. Сложность не в поиске, а в опоре на источники: заставить модель говорить только то, что подтверждает найденный текст, прикреплять цитаты, которые читатель может проверить, и доказать на eval-наборе, что ответы не уплывают в уверенную выдумку. Ты соберёшь весь цикл — нарезка, эмбеддинги, хранилище, retrieval top-k, опора, цитаты, оценка — и нащупаешь, где именно он течёт.

◆ Проекты

Планировщик задач

Планировщик задач cron + backoff с доставкой at-least-once, идемпотентными обработчиками и visibility timeout — чтобы ни одна задача не терялась молча, даже при краше воркера на середине выполнения.

◆ Проекты

Next.js-приложение в продакшен

Собери мультитенантное контент-приложение на App Router — а потом эксплуатируй его: закрой авторизацию и секреты, наслои кэши, реши каждый выбор edge-vs-node и разберись с инцидентом, когда один тенант отравляет общую ISR-страницу.

◆ Проекты

Мини OAuth 2.0 + PKCE логин

Реализуй поток authorization-code + PKCE целиком против реального провайдера, чтобы понять каждый редирект и токен, а не доверять библиотеке.

◆ Проекты

Асинхронный Python-сервис: собрать и эксплуатировать

Собери асинхронный FastAPI-сервис приёма, который валидирует, прогоняет через пайплайн и выдерживает нагрузку, — а потом эксплуатируй его: упакуй, контейнеризуй с корректным поведением PID-1 и разберись с инцидентом, когда проглоченный CancelledError тихо протекает задачами, пока event loop не начинает голодать.

◆ Проекты

Распределённый rate limiter

Собери token-bucket лимитер, который держится поперёк многих инстансов приложения за счёт счётчика в Redis, а не в памяти процесса.

◆ Проекты

React-фича под нагрузкой

Выкати одну настоящую production-фичу на React — живой совместный дашборд активности — а потом эксплуатируй её: оптимистичные правки, стриминговые обновления, бюджет на кадр, полную доступность и разбор инцидента, когда render-шторм замораживает вкладку.

◆ Проекты

Наблюдаемость

С нуля

Три pillar'а: метрики, логи и трейсы

Структурное логирование: схема, levels, редакция

OpenTelemetry: API, SDK, Collector, OTLP

RED и USE: две половины каждого дашборда

SLI, SLO и error budget: надёжность в числах

Trace propagation: заголовки, сшивающие сервисы воедино

Profiling: куда реально ушли CPU и байты

Соединяем всё: production-observability-история

Проекты по этому треку

Совместные курсоры

Конкурентный сервис ингеста на Go

Сервис RAG с опорой на источники

Планировщик задач

Next.js-приложение в продакшен

Мини OAuth 2.0 + PKCE логин

Асинхронный Python-сервис: собрать и эксплуатировать

Распределённый rate limiter

React-фича под нагрузкой

URL-сокращатель под нагрузкой

Виртуальная таблица данных

Деплой и инфра