AI / LLM
LLM cost budgets: тест на свободное воспроизведение
Воспроизведение бьёт перечитывание. На каждый промпт скажи или напиши полный ответ по памяти раньше, чем откроешь эталон — усилие припоминания и закрепляет cost-модель.
Восстанови хребет юнита — асимметрию token, где накапливается context, экономику routing, prompt caching и in-process kill switch — не подглядывая в урок.
- 01Почему выход — дорогая половина LLM-счёта и какие конкретные рычаги по нему бьют?
- 02Stateless-модель повторно отправляет context каждый ход. Назови три вещи, раздувающие повторно отправляемый payload, и как каждая растёт.
- 03Когда model routing (cheap-first cascade) реально экономит, а когда бьёт по тебе же?
- 04Объясни prompt caching: что удешевляется, насколько и как структурировать prompt для максимума выгоды.
- 05Почему agent loop без лимита жжёт деньги суперлинейно и почему месячный provider cap его не остановит?
- 06Перечисли cost-контроли в порядке приоритета, от дешёвой первой линии до крайнего средства, и скажи, что каждый ограничивает.
Если смог восстановить каждый ответ по памяти — ты держишь хребет юнита: выход стоит ~5x входа, поэтому ограничь его; system prompt, history и RAG отправляются каждый ход (фиксированно, линейно и мультипликативно соответственно); routing экономит лишь при низком escalation rate; caching стабильного префикса роняет его до 0.1x и окупается на первом попадании; а поскольку runaway loop суперлинеен, а месячный cap меряется в днях, реальный тормоз — in-process budget плюс kill switch на cost velocity.