AI / LLM AI · 05 · 07

LLM cost budgets: тест с множественным выбором

Синтез с множественным выбором по юниту cost budgets — асимметрия цен на token, повторно отправляемый context, model routing, prompt caching и in-process budget-гардрейлы.

AI Senior ◷ 13 min

Уровень

ОсновыJuniorMiddleSenior

Шесть вопросов через весь юнит. Каждый отражает решение, которое ты принимаешь в реальном cost-инциденте — не определение для пересказа, а tradeoff, который нужно взвесить, пока счётчик крутится.

Цель

Убедись, что можешь связать цены на token, повторно отправляемый context, routing, caching и in-process budget в одно решение — синтез, к которому вёл обзорный урок.

Викторина

Чат-бот поддержки на Sonnet 4.6 ($3/M вход, $15/M выход) отправляет вопрос на 200 token и получает ответ на 1500 token, по большей части chain-of-thought, который пользователь не видит. Где расход и какой первый рычаг?

Викторина

Чат на 50 ходов повторно отправляет system prompt на 4000 token каждый ход, и input-счёт растёт. У какого фикса наибольший рычаг?

Викторина

Команда направляет лёгкие 80% запросов на Haiku ($1/$5) и эскалирует неудачи на Opus ($5/$25). После запуска счёт почти не сдвинулся. Самая вероятная причина?

Викторина

Автономный agent loop без лимита итераций крутится всю ночь и выставляет счёт $4300. Почему месячный cap в $1000 его не остановил?

Викторина

Почему agent loop без лимита стоит суперлинейно по числу итераций, а не просто линейно?

Викторина

Ты проектируешь cost-контроли для LLM-фичи. Какой порядок — от самой дешёвой первой линии обороны до крайнего средства — отражает приоритет юнита?

Итог

Сквозная линия — одно дерево решений: выход стоит ~5x входа, поэтому ограничь его первым; stateless-модель повторно отправляет system prompt, history и RAG каждый ход, поэтому кэшируй стабильный префикс и обрезай волатильные части; направляй лёгкое большинство дёшево и следи за escalation rate; а поскольку runaway loop стоит суперлинейно, а месячный cap меряется в днях, реальный тормоз — это in-process budget плюс kill switch на cost velocity. Каждый контроль снижает или ограничивает повторно отправляемый context и выход раньше, чем ограничивает счёт. Теперь, встретив cost-инцидент в продакшне, у тебя есть чеклист — не догадки.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.