Наблюдаемость OBS · 04 · 01

RED и USE: два чек-листа, одна дисциплина триажа

RED (Rate, Errors, Duration) описывает, что почувствовал пользователь. USE (Utilization, Saturation, Errors) описывает, какой ресурс это вызвал. Оба чек-листа по порядку — первый рефлекс senior-инженера, когда срабатывает пейджер.

OBS Junior ◷ 10 min

Уровень

ОсновыJuniorMiddleSenior

Уже знаешь этот юнит? Пройди быструю проверку за минуту →

Пейджер сработал. p99-задержка checkout-сервиса подскочила с 80 мс до 1.2 с. У тебя секунды, чтобы найти нужный дашборд, пока incident commander уже спрашивает обновление. Открыть все панели — ошибка. Правильное действие — два коротких чек-листа.

Что такое RED

Tom Wilkie представил RED на London Prometheus meetup в 2015. RED описывает сервис с точки зрения вызывающего:

Rate — запросов в секунду, поступающих в сервис.
Errors — упавших запросов в секунду (HTTP 5xx, gRPC non-OK, таймауты).
Duration — распределение задержки (p50 / p95 / p99) запросов, которые завершились.

Если RED болеет — болеет пользователь. Rate говорит, нормален ли трафик. Errors говорят, падают ли запросы. Duration говорит, медленны ли выжившие.

Что такое USE

Brendan Gregg назвал USE в 2012 как чек-лист экстренной диагностики производительности. USE описывает каждый ресурс (CPU, память, диск, сеть, локи, thread pool’ы) с трёх сторон:

Utilization — средний процент времени, когда ресурс был занят.
Saturation — объём работы в очереди, которую ресурс ещё не успел обслужить (длина run queue, время ожидания).
Errors — счётчик ошибочных событий на ресурсе (ECC-ошибки, disk EIO, NIC CRC, ENOSPC).

Если USE болеет на боксе — этот ресурс кандидат в причины RED-симптома.

Послойная ментальная модель

Метод	Что меряет	Отвечает на вопрос	Автор
RED	Сервисы (request-driven)	Пользователю плохо? Какой симптом?	Tom Wilkie, 2015
USE	Ресурсы (CPU, память, диск, …)	Какой ресурс это вызвал?	Brendan Gregg, 2012

Ритм чтения в инциденте всегда RED первым, USE вторым:

Открой RED-дашборд затронутого сервиса.
Определи, какой из R / E / D аномален — это назовёт симптом.
Переключись на USE-дашборд ресурсов под этим сервисом.
Найди ресурс, где utilization или saturation скакнули — это назовёт кандидата в причины.
Опускайся в трейсы, логи или профили только после того, как RED и USE сузили область поиска.

Вместе эти пять шагов превращают хаотичный вызов на пейджере в направленное расследование: без шага 2 ты просто угадываешь, какую панель открыть, а без шага 4 знаешь симптом, но не причину.

RED смотрит на сервис, к которому обращается пользователь; USE — на ресурсы под ним. Одна форма — по три метрики — разная линза: RED называет симптом, USE находит причину.

Метафора больницы

Представь больницу. RED — жизненные показатели пациента: пульс, давление, температура — измеряемые снаружи. USE — мониторинг каждой машины интенсивной терапии: расход кислорода, давление насоса, лампочки ошибок — измеряемые на самом оборудовании. Нужны оба. Если падают показатели пациента — действуешь быстро, но чтобы понять почему — идёшь к машинам. Врачи, смотрящие только на одно, пропускают очевидные проблемы.

Конкретный триаж

On-call-инженер Bea получает пейджер: p99-задержка checkout-сервиса подскочила с 80 мс до 1.2 с. RED-дашборд: Rate стабилен 400 req/s, Errors ниже 0.1%, Duration p99 в 15 раз хуже. Это RED-триаж — запросы приходят и в большинстве успешны, но медленно. Bea переключается на USE по машинам: CPU 92%, run queue прыгнул с 0 до 14. Машины CPU-saturated; треды стоят в очереди за циклами. Решение: scale out. Диагноз занял меньше минуты.

▸Почему это работает

USE Saturation — самый диагностически ценный из трёх сигналов. Utilization говорит, насколько ресурс был занят в среднем — CPU на 100% нормален, если нет ожидающей работы (он просто успевает). Что важно — длина run queue. Диск на 80% utilization с queue depth 50 хуже, чем диск на 95% с queue depth 1, потому что очередь — это ведущий индикатор задержки: каждая задача в очереди платит queueing delay.

Контринтуитивно: медленный — диск на 80% утилизации, ведь у него 50 задач в очереди и он насыщен, а диск на 95% с очередью в 1 успевает. Читай сатурацию раньше утилизации.

Викторина

Мониторинг-дашборд показывает Rate, Errors и Duration сервиса. Что это за методология?

Викторина

Метод USE: для каждого ресурса проверь Utilization, Saturation и Errors. Что такое 'saturation' в USE?

Закончи аналогию

Заполни пропуск: RED — это методология измерения _______, а USE — методология измерения ресурсов.

Расставь шаги по порядку

Расставь шаги типового инцидент-ответа RED+USE по порядку:

1 Пейджер сработал — описан симптом (latency, ошибки, capacity)
2 Открой RED-дашборд затронутого сервиса
3 Определи, какой из R / E / D аномален — это назовёт симптом
4 Переключись на USE-дашборд ресурсов под этим сервисом
5 Найди ресурс, где utilization или saturation скакнули — это назовёт причину
6 Опускайся в трейсы, логи или профили только после того, как RED и USE сузили область
7 Применяй фикс (scale up, рестарт, throttle, rollback) и смотри, как RED возвращается к baseline

Вспомните перед уходом

01
В двух предложениях: почему запускать только RED или только USE обычно недостаточно для инцидент-ответа?
02
Что означают три буквы USE и что каждая меряет?
03
Кто ввёл RED и когда? Кто ввёл USE и когда?

Итог

RED и USE — два коротких чек-листа с разницей в два года, которые вместе покрывают и сервис, к которому обращается пользователь, и ресурсы, на которых этот сервис стоит. RED (Rate, Errors, Duration) меряет поток запросов с точки зрения вызывающего — если RED болеет, болеет пользователь. USE (Utilization, Saturation, Errors) меряет каждый физический и логический ресурс с трёх сторон — если USE болеет на боксе, это кандидат в причины. Рефлекс senior-инженера в инциденте: RED первым (назвать симптом), USE вторым (найти причину), и всё остальное — логи, трейсы, профили — только после того, как эти два чек-листа сузили область. Saturation, а не utilization, — самое диагностически ценное измерение USE: очередь ожидающей работы — ведущий индикатор видимой пользователю задержки даже при умеренном среднем utilization. Теперь, когда сработает пейджер, твои первые два действия предопределены — открыть RED, затем USE — и угадывание начинается лишь после того, как оба чек-листа высказались.

Практика

Начни сверху. Задачи идут от простого к сложному: вспомнить факт, применить к случаю, затем senior-уровень. Открой, попробуй, потом открой ответ.

вспомнитьприменитьуглубить0 из 5 завершено

Связанные уроки

опирается на

Что такое OpenTelemetry: API, SDK, Collector, OTLPjunior

открывает

углубляется в

встречается в170

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.

Примени это

Примени этот урок в реальном проекте.

Мини OAuth 2.0 + PKCE логинРеализуй поток authorization-code + PKCE целиком против реального провайдера, чтобы понять каждый редирект и токен, а не доверять библиотеке.Распределённый rate limiterСобери token-bucket лимитер, который держится поперёк многих инстансов приложения за счёт счётчика в Redis, а не в памяти процесса.