awesome-everything EN
↑ Обратно к восхождению

AI / LLM

LLM cost budgets: построй cost observability и гардрейлы

Суть Практический проект — добавь cost observability и budget-гардрейлы к LLM-фиче, затем сократи расход caching и routing и докажи это числами before/after.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 240 min

Читать про счёт в $4300 за ночь — не то же, что построить гардрейл, который его бы остановил. Возьми LLM-фичу без cost-контролей, сделай её расход видимым по запросу и по tenant, затем ограничь его — и докажи экономию реальными числами before/after.

Цель

Преврати ментальную модель юнита в задеплоенный control plane: инструментируй стоимость token насквозь, введи per-request и per-user budget in-process с kill switch, сократи расход caching и routing и проверь каждый шаг измеренным расходом, а не оценками.

Проект
0 из 8
Цель

Возьми LLM-фичу — multi-turn чат-бот, RAG-эндпоинт или небольшой tool-using agent (свой или стартер) — которая сейчас вызывает модель без cost-контролей, и задеплой cost observability плюс budget-гардрейлы, которые режут её расход ≥40% и делают runaway loop невозможным, доказывая каждый шаг измерениями before/after.

Требования
Критерии приёмки
  • Таблица before/after: общий расход, p99 стоимости на запрос, разбивка input:output, доля cached-read и escalation rate — измеренные на идентичном трафике, не оценённые.
  • Дашборд cost observability (или структурированные логи) атрибутирует расход на tenant и на сессию и показывает рост cache hit rate после добавления caching.
  • Продемонстрированный runaway-сценарий (зацикленный agent или раздутый payload) останавливается in-process kill switch за секунды, со сработкой в логах — доказывая, что месячный cap никогда не был линией обороны.
  • Абзац-описание, называющий, какой рычаг дал каждый кусок экономии (caching против routing против обрезки против cap) и почему in-process budget, а не provider cap, и есть реальный гардрейл.
Senior-стретч
  • Добавь on-call runbook: triage по четырём панелям дашборда, лестницу приоритета cost-контролей (route → cache → cap/trim → in-process budget → kill switch) и чеклист верификации для скачка расходов.
  • Добавь per-tenant rate limiting и путь soft-degrade: когда tenant подходит к budget, автоматически даунгрейди его на дешёвую модель и более жёсткий max_tokens вместо жёсткого отказа.
  • Добавь CI cost gate: проиграй фиксированную traffic-фикстуру против canary, сравни общий расход и p99 стоимости на запрос с main и провали билд, если расход регрессирует более чем на 15%.
  • Добавь anomaly detection на cost velocity (на сессию и на tenant), который пейджит до месячного cap, закрывая разрыв «алерт сработал в 2 ночи в канал, который никто не читает» из вступительного инцидента.
Итог

Это цикл, который ты запускаешь для каждой LLM cost-поверхности: сначала инструментируй расход на запрос и на tenant, сними baseline на реальном трафике, затем бей по самому большому члену — кэшируй повторно отправляемый префикс, направляй лёгкий срез дёшево, ограничивай выход и обрезай context — и ограничивай худший случай in-process per-request/per-user budget плюс kill switch на cost velocity. Проверяй числами before/after на идентичном трафике. Сделав это раз на реальной фиче, ты превращаешь историю про $4300 за ночь в гардрейл, которому реально доверишь в пятницу вечером.

Продолжить восхождение ↑Цикл агента: ReAct, неуправляемые шаги и контекст, растущий каждый ход
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources2
expand
  1. 01
  2. 02

Trademarks belong to their respective owners. Editorial reference only.