AI / LLM
Prompt caching: тест на свободное припоминание
Припоминание бьёт перечитывание. На каждый промпт скажи или запиши полный ответ по памяти, прежде чем открыть модельный — усилие припоминания и закрепляет механизм.
Реконструируй ключевые механизмы юнита — сопоставление префикса токен-в-токен, экономику записи/чтения, выбор TTL, правило порядка и тихое отравление префикса — не подглядывая в урок.
- 01Почему prompt caching позиционное, а не семантическое, и что это значит для дизайна промпта?
- 02Пройди по экономике записи/чтения и как выводится точка окупаемости.
- 03Как работает TTL, когда 1-часовой тариф отбивает свою премию 2x, и как рассуждать о точке окупаемости между тарифами?
- 04Что такое минимальная кэшируемая длина и в чём опасность пересечения её снизу?
- 05Объясни тихое отравление префикса: как одна небрежная правка умножает счёт за вход на 10 без ошибки.
- 06Что такое cache breakpoints и зачем их складывают на длинном слоёном промпте?
Если ты смог реконструировать каждый ответ по памяти — ты держишь хребет юнита: сопоставление позиционное и токен-в-токен с нулевой позиции, поэтому стабильный контент идёт первым, а волатильный последним, с breakpoint на финальном неизменном блоке. Платишь 1.25x один раз и 0.1x за чтение, так что кэш выигрывает после первого перечитывания внутри TTL — 5 минут по дефолту, 1 час для всплесков с паузами. Ниже минимальной кэшируемой длины модели ничего не кэшируется, тихо. А производственный режим отказа всегда один — отравление префикса у нулевого токена, видимое только в блоке usage.