AI / LLM AI · 05 · 08

LLM cost budgets: тест на свободное воспроизведение

Промпты на свободное воспроизведение по юниту cost budgets. Ответь сначала своими словами, затем открой эталонный ответ и сравни.

AI Senior ◷ 14 min

Уровень

ОсновыJuniorMiddleSenior

Воспроизведение бьёт перечитывание. На каждый промпт скажи или напиши полный ответ по памяти раньше, чем откроешь эталон — усилие припоминания и закрепляет cost-модель.

Цель

Восстанови хребет юнита — асимметрию token, где накапливается context, экономику routing, prompt caching и in-process kill switch — не подглядывая в урок.

Вспомните перед уходом

01
Почему выход — дорогая половина LLM-счёта и какие конкретные рычаги по нему бьют?
02
Stateless-модель повторно отправляет context каждый ход. Назови три вещи, раздувающие повторно отправляемый payload, и как каждая растёт.
03
Когда model routing (cheap-first cascade) реально экономит, а когда бьёт по тебе же?
04
Объясни prompt caching: что удешевляется, насколько и как структурировать prompt для максимума выгоды.
05
Почему agent loop без лимита жжёт деньги суперлинейно и почему месячный provider cap его не остановит?
06
Перечисли cost-контроли в порядке приоритета, от дешёвой первой линии до крайнего средства, и скажи, что каждый ограничивает.

Итог

Если смог восстановить каждый ответ по памяти — ты держишь хребет юнита: выход стоит ~5x входа, поэтому ограничь его; system prompt, history и RAG отправляются каждый ход (фиксированно, линейно и мультипликативно соответственно); routing экономит лишь при низком escalation rate; caching стабильного префикса роняет его до 0.1x и окупается на первом попадании; а поскольку runaway loop суперлинеен, а месячный cap меряется в днях, реальный тормоз — in-process budget плюс kill switch на cost velocity. Теперь, встретив реальный cost-инцидент, ты потянешься за арифметикой — а не за лимитом.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.