awesome-everything EN
↑ Обратно к восхождению

AI / LLM

LLM cost budgets: тест с множественным выбором

Суть Синтез с множественным выбором по юниту cost budgets — асимметрия цен на token, повторно отправляемый context, model routing, prompt caching и in-process budget-гардрейлы.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 13 min

Шесть вопросов через весь юнит. Каждый отражает решение, которое ты принимаешь в реальном cost-инциденте — не определение для пересказа, а tradeoff, который нужно взвесить, пока счётчик крутится.

Цель

Убедись, что можешь связать цены на token, повторно отправляемый context, routing, caching и in-process budget в одно решение — синтез, к которому вёл обзорный урок.

Викторина

Чат-бот поддержки на Sonnet 4.6 ($3/M вход, $15/M выход) отправляет вопрос на 200 token и получает ответ на 1500 token, по большей части chain-of-thought, который пользователь не видит. Где расход и какой первый рычаг?

Викторина

Чат на 50 ходов повторно отправляет system prompt на 4000 token каждый ход, и input-счёт растёт. У какого фикса наибольший рычаг?

Викторина

Команда направляет лёгкие 80% запросов на Haiku ($1/$5) и эскалирует неудачи на Opus ($5/$25). После запуска счёт почти не сдвинулся. Самая вероятная причина?

Викторина

Автономный agent loop без лимита итераций крутится всю ночь и выставляет счёт $4300. Почему месячный cap в $1000 его не остановил?

Викторина

Почему agent loop без лимита стоит суперлинейно по числу итераций, а не просто линейно?

Викторина

Ты проектируешь cost-контроли для LLM-фичи. Какой порядок — от самой дешёвой первой линии обороны до крайнего средства — отражает приоритет юнита?

Итог

Сквозная линия — одно дерево решений: выход стоит ~5x входа, поэтому ограничь его первым; stateless-модель повторно отправляет system prompt, history и RAG каждый ход, поэтому кэшируй стабильный префикс и обрезай волатильные части; направляй лёгкое большинство дёшево и следи за escalation rate; а поскольку runaway loop стоит суперлинейно, а месячный cap меряется в днях, реальный тормоз — это in-process budget плюс kill switch на cost velocity. Каждый контроль снижает или ограничивает повторно отправляемый context и выход раньше, чем ограничивает счёт.

Продолжить восхождение ↑LLM cost budgets: тест на свободное воспроизведение
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources3
expand
  1. 01
  2. 02
  3. 03

Trademarks belong to their respective owners. Editorial reference only.