AI / LLM AI · 05 · 10

LLM cost budgets: построй cost observability и гардрейлы

Практический проект — добавь cost observability и budget-гардрейлы к LLM-фиче, затем сократи расход caching и routing и докажи это числами before/after.

AI Senior ◷ 240 min

Уровень

ОсновыJuniorMiddleSenior

Читать про счёт в $4300 за ночь — не то же, что построить гардрейл, который его бы остановил. Возьми LLM-фичу без cost-контролей, сделай её расход видимым по запросу и по tenant, затем ограничь его — и докажи экономию реальными числами before/after.

Цель

Преврати ментальную модель юнита в задеплоенный control plane: инструментируй стоимость token насквозь, введи per-request и per-user budget in-process с kill switch, сократи расход caching и routing и проверь каждый шаг измеренным расходом, а не оценками.

Проект

0 из 8

Цель

Возьми LLM-фичу — multi-turn чат-бот, RAG-эндпоинт или небольшой tool-using agent (свой или стартер) — которая сейчас вызывает модель без cost-контролей, и задеплой cost observability плюс budget-гардрейлы, которые режут её расход ≥40% и делают runaway loop невозможным, доказывая каждый шаг измерениями before/after.

Требования

Критерии приёмки

Таблица before/after: общий расход, p99 стоимости на запрос, разбивка input:output, доля cached-read и escalation rate — измеренные на идентичном трафике, не оценённые.
Дашборд cost observability (или структурированные логи) атрибутирует расход на tenant и на сессию и показывает рост cache hit rate после добавления caching.
Продемонстрированный runaway-сценарий (зацикленный agent или раздутый payload) останавливается in-process kill switch за секунды, со сработкой в логах — доказывая, что месячный cap никогда не был линией обороны.
Абзац-описание, называющий, какой рычаг дал каждый кусок экономии (caching против routing против обрезки против cap) и почему in-process budget, а не provider cap, и есть реальный гардрейл.

Senior-стретч

Добавь on-call runbook: triage по четырём панелям дашборда, лестницу приоритета cost-контролей (route → cache → cap/trim → in-process budget → kill switch) и чеклист верификации для скачка расходов.
Добавь per-tenant rate limiting и путь soft-degrade: когда tenant подходит к budget, автоматически даунгрейди его на дешёвую модель и более жёсткий max_tokens вместо жёсткого отказа.
Добавь CI cost gate: проиграй фиксированную traffic-фикстуру против canary, сравни общий расход и p99 стоимости на запрос с main и провали билд, если расход регрессирует более чем на 15%.
Добавь anomaly detection на cost velocity (на сессию и на tenant), который пейджит до месячного cap, закрывая разрыв «алерт сработал в 2 ночи в канал, который никто не читает» из вступительного инцидента.

Итог

Это цикл, который ты запускаешь для каждой LLM cost-поверхности: сначала инструментируй расход на запрос и на tenant, сними baseline на реальном трафике, затем бей по самому большому члену — кэшируй повторно отправляемый префикс, направляй лёгкий срез дёшево, ограничивай выход и обрезай context — и ограничивай худший случай in-process per-request/per-user budget плюс kill switch на cost velocity. Проверяй числами before/after на идентичном трафике. Сделав это раз на реальной фиче, ты превращаешь историю про $4300 за ночь в гардрейл, которому реально доверишь в пятницу вечером.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.