AI / LLM
LLM cost budgets: тест с множественным выбором
Шесть вопросов через весь юнит. Каждый отражает решение, которое ты принимаешь в реальном cost-инциденте — не определение для пересказа, а tradeoff, который нужно взвесить, пока счётчик крутится.
Убедись, что можешь связать цены на token, повторно отправляемый context, routing, caching и in-process budget в одно решение — синтез, к которому вёл обзорный урок.
Чат-бот поддержки на Sonnet 4.6 ($3/M вход, $15/M выход) отправляет вопрос на 200 token и получает ответ на 1500 token, по большей части chain-of-thought, который пользователь не видит. Где расход и какой первый рычаг?
Чат на 50 ходов повторно отправляет system prompt на 4000 token каждый ход, и input-счёт растёт. У какого фикса наибольший рычаг?
Команда направляет лёгкие 80% запросов на Haiku ($1/$5) и эскалирует неудачи на Opus ($5/$25). После запуска счёт почти не сдвинулся. Самая вероятная причина?
Автономный agent loop без лимита итераций крутится всю ночь и выставляет счёт $4300. Почему месячный cap в $1000 его не остановил?
Почему agent loop без лимита стоит суперлинейно по числу итераций, а не просто линейно?
Ты проектируешь cost-контроли для LLM-фичи. Какой порядок — от самой дешёвой первой линии обороны до крайнего средства — отражает приоритет юнита?
Сквозная линия — одно дерево решений: выход стоит ~5x входа, поэтому ограничь его первым; stateless-модель повторно отправляет system prompt, history и RAG каждый ход, поэтому кэшируй стабильный префикс и обрезай волатильные части; направляй лёгкое большинство дёшево и следи за escalation rate; а поскольку runaway loop стоит суперлинейно, а месячный cap меряется в днях, реальный тормоз — это in-process budget плюс kill switch на cost velocity. Каждый контроль снижает или ограничивает повторно отправляемый context и выход раньше, чем ограничивает счёт.