AI / LLM
LLM cost budgets: построй cost observability и гардрейлы
Читать про счёт в $4300 за ночь — не то же, что построить гардрейл, который его бы остановил. Возьми LLM-фичу без cost-контролей, сделай её расход видимым по запросу и по tenant, затем ограничь его — и докажи экономию реальными числами before/after.
Преврати ментальную модель юнита в задеплоенный control plane: инструментируй стоимость token насквозь, введи per-request и per-user budget in-process с kill switch, сократи расход caching и routing и проверь каждый шаг измеренным расходом, а не оценками.
Возьми LLM-фичу — multi-turn чат-бот, RAG-эндпоинт или небольшой tool-using agent (свой или стартер) — которая сейчас вызывает модель без cost-контролей, и задеплой cost observability плюс budget-гардрейлы, которые режут её расход ≥40% и делают runaway loop невозможным, доказывая каждый шаг измерениями before/after.
- Таблица before/after: общий расход, p99 стоимости на запрос, разбивка input:output, доля cached-read и escalation rate — измеренные на идентичном трафике, не оценённые.
- Дашборд cost observability (или структурированные логи) атрибутирует расход на tenant и на сессию и показывает рост cache hit rate после добавления caching.
- Продемонстрированный runaway-сценарий (зацикленный agent или раздутый payload) останавливается in-process kill switch за секунды, со сработкой в логах — доказывая, что месячный cap никогда не был линией обороны.
- Абзац-описание, называющий, какой рычаг дал каждый кусок экономии (caching против routing против обрезки против cap) и почему in-process budget, а не provider cap, и есть реальный гардрейл.
- Добавь on-call runbook: triage по четырём панелям дашборда, лестницу приоритета cost-контролей (route → cache → cap/trim → in-process budget → kill switch) и чеклист верификации для скачка расходов.
- Добавь per-tenant rate limiting и путь soft-degrade: когда tenant подходит к budget, автоматически даунгрейди его на дешёвую модель и более жёсткий max_tokens вместо жёсткого отказа.
- Добавь CI cost gate: проиграй фиксированную traffic-фикстуру против canary, сравни общий расход и p99 стоимости на запрос с main и провали билд, если расход регрессирует более чем на 15%.
- Добавь anomaly detection на cost velocity (на сессию и на tenant), который пейджит до месячного cap, закрывая разрыв «алерт сработал в 2 ночи в канал, который никто не читает» из вступительного инцидента.
Это цикл, который ты запускаешь для каждой LLM cost-поверхности: сначала инструментируй расход на запрос и на tenant, сними baseline на реальном трафике, затем бей по самому большому члену — кэшируй повторно отправляемый префикс, направляй лёгкий срез дёшево, ограничивай выход и обрезай context — и ограничивай худший случай in-process per-request/per-user budget плюс kill switch на cost velocity. Проверяй числами before/after на идентичном трафике. Сделав это раз на реальной фиче, ты превращаешь историю про $4300 за ночь в гардрейл, которому реально доверишь в пятницу вечером.