Наблюдаемость OBS · 01 · 01

Что такое три сигнала: метрики, логи, трейсы

Чем три телеметрических сигнала отличаются друг от друга, какой сигнал отвечает на какой вопрос дешевле и как join-ключи соединяют их в единую навигационную поверхность.

OBS Junior ◷ 10 min

Уровень

ОсновыJuniorMiddleSenior

Уже знаешь этот юнит? Пройди быструю проверку за минуту →

p99 checkout вырос с 80 мс до 1,2 с. Нужно понять что, почему и где — за 5 минут, а не за 5 часов. Три сигнала дают три разных ответа на три разных вопроса. Выбрать не тот — потратить 20 минут на бесполезные поиски.

Три сигнала и что каждый сохраняет

Три сигнала отличаются тем, что сохраняют и что выбрасывают. Каждый закрывает слепые пятна двух других: метрики видят тренд, но не запись; логи — запись, но не путь; трейсы — путь, но не совокупность.

Метрики — агрегаты и счётчики что-то сломалось?

Логи — дискретные события что именно произошло?

Трейсы — span'ы запроса куда ушло время?

Три дополняющие формы: метрики поднимают тревогу, логи дают диагностику, трейсы прослеживают один запрос через сервисы.

Сигнал	Что сохраняет	Что выбрасывает	Ось стоимости
Метрики	Числовые агрегаты по label-измерениям, долгая история	Всё, что не вошло в label (user_id, request_id и т.д.)	Кол-во активных series × retention
Логи	Каждое поле каждого события в полном объёме	Ничего в пределах записанного; но не записывают причинные цепочки	Байты ingestion в день × ставка хранения
Трейсы	Причинную цепочку одного запроса через сервисы	Большинство запросов (сэмплирование обязательно)	Span’ы в месяц × ставка backend’а трейсинга

Какой сигнал отвечает на какой вопрос

Метрики отвечают на вопрос «что происходит сейчас?» — Rate, Errors, Duration по route и region за 2 года. Данные возвращаются за миллисекунды: предагрегация происходит при записи, а не при чтении. Слепые ко всему, что не попало в label.

Логи отвечают на вопрос «что именно произошло?» — конкретная трассировка стека, тело ошибки, значение поля order_id. Хранят каждое поле; высокая cardinality бесплатна при записи, но стоит байт ingestion.

Трейсы отвечают на вопрос «где внутри одного запроса было потрачено время?» — дерево span’ов из 7 сервисов с длительностью каждого. Требуют сэмплирования — хранить 100% запросов при 1000 запросах/с = миллиарды span’ов в день.

Каждый сигнал дёшев ровно по одной оси стоимости и платит по двум другим — поэтому один сигнал никогда не заменит два остальных.

Join-ключи: мост между сигналами

Три сигнала на трёх разных backend’ах бесполезны, если между ними нельзя перейти за один клик. Общие атрибуты — join-ключи — делают три разрозненных инструмента единой навигационной поверхностью.

Обязательные join-ключи:

service.name — какой сервис эмитит данные
trace_id — какой конкретный запрос
http.route — шаблон маршрута (например, /orders/{id}, не /orders/42)

Когда метрики содержат service.name и http.route как label’ы, лог-строки содержат trace_id запроса, а трейсы содержат те же service.name и http.route — именно тогда работает «клик от всплеска метрики → лог-строка → трейс» за 30 секунд.

▸Почему это работает

trace_id — самый важный join-ключ. Он соединяет три сигнала в конкретный запрос. Без него ты переключаешься между тремя разрозненными дашбордами и вручную сопоставляешь временны́е метки. Это разница между 5 минутами и 20 минутами триажа на инциденте.

Расставь шаги по порядку

p99 на checkout вырос в 14:02. Расставь шаги триажа по порядку:

1 Открыть дашборд метрик checkout — подтвердить Rate, Errors, Duration аномальны
2 Определить измерение (region, route, customer-segment) — перефильтровать метрики
3 Взять exemplar trace_id из медленного bucket'а гистограммы
4 Открыть трейс — найти span, который занял большую часть времени
5 Перейти в логи зависимости, отфильтровав по trace_id
6 Прочитать лог-строку с реальной причиной (timeout, error, queue full)

Викторина

p99 API вырос с 80 мс до 1,2 с. Какой сигнал первым подтверждает, что проблема реальная, и на каком измерении?

Викторина

Почему трейсы обязательно сэмплируются, а метрики — нет?

Закончи аналогию

Заполни пропуск: _______ — это стрелки на стенах кухни: дёшево читать, всегда включены, но показывают только то, что ты заранее пометил label'ом.

Вспомните перед уходом

01
Объясни чем метрики дешевле логов при запросе, и почему они слепее.
02
Назови три обязательных join-ключа между сигналами и объясни, что сломается без каждого.
03
Команда управляет тремя разными backend'ами: Prometheus, Loki, Jaeger. В метриках поле называется route, в логах — http_path, в трейсах — http.route. Что происходит при инциденте?

Итог

Три сигнала — метрики, логи, трейсы — существуют потому, что ни одна форма хранения не является дешёвой по трём осям сразу: длительный retention, высокая cardinality, полная fidelity запроса. Метрики предагрегируются при записи — запросы мгновенны за годы истории, но слепы к измерениям, не попавшим в label. Логи хранят каждое поле каждого события — мощный инструмент для любого постфактум-вопроса, но дорогой в байтах ingestion. Трейсы захватывают причинную цепочку одного запроса через сервисы — незаменимы для диагностики latency, но требуют сэмплирования при масштабе. Join-ключи — service.name, trace_id, http.route — это общие атрибуты, которые появляются идентично во всех трёх сигналах и делают переход от всплеска метрики к лог-строке и трейсу за один клик возможным. Теперь, когда на инциденте упадёт алерт, ты потянешься к метрикам первым, чтобы подтвердить симптом, — а не потратишь час в неправильном сигнале.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

открывает

Метрики и cardinality: cost-модель time-series databasemiddle

углубляется в

встречается в297

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.