AI / LLM AI · 01 · 07

Prompt caching: тест с множественным выбором

Синтез по всему юниту prompt caching в формате выбора: сопоставление префикса, экономика записи/чтения, выбор TTL, правила порядка и тихое отравление префикса.

AI Senior ◷ 13 min

Уровень

ОсновыJuniorMiddleSenior

Шесть вопросов через весь юнит. Каждый отражает реальное решение — куда ставить cache breakpoint, какой TTL покупать, почему счёт утроился — а не определение для пересказа.

Цель

Убедись, что можешь связать сопоставление префикса токен-в-токен, экономику записи/чтения, выбор TTL и тихий режим отказа, к которому вёл урок.

Викторина

Два запроса несут один и тот же системный промпт и документ на 30k токенов, но в запросе B внутри этого блока один лишний пробел. Сколько в B прочитается из кэша?

Викторина

Префикс записан один раз (1.25x, дефолтный тариф), затем прочитан дважды (0.1x каждый) до истечения. По сравнению с полной ставкой (1.0x) трижды — кэш помог?

Викторина

У RAG-сервиса стабильный префикс на 30k токенов, но трафик всплесками: запросы кучкуются, затем тишина ~15 минут. Какая настройка кэша верна?

Викторина

Cache hit rate упал почти до нуля после деплоя. Ошибок нет, выводы выглядят корректно. Наиболее вероятная причина?

Викторина

На Sonnet ты кэшируешь системный промпт на 600 токенов и не видишь скидки на чтение на повторных запросах, без ошибки. Почему?

Викторина

У тебя длинный слоёный промпт: tools, статический блок system, затем большой документ, меняющийся раз в сутки. Как расставить до 4 cache breakpoints?

Итог

Сквозная линия юнита — одно правило с экономическим движком за ним: сопоставление идёт токен-в-токен с нулевой позиции, поэтому стабильный контент (tools, затем system, затем большой контекст) идёт первым, а волатильный (таймстампы, найденные документы, вопрос пользователя) — последним, с breakpoint на финальном неизменном блоке. Платишь 1.25x один раз за запись и 0.1x за каждое чтение, так что кэш выигрывает после первого перечитывания внутри TTL — 5 минут по дефолту, 1 час для всплесков с паузами. Ниже минимальной кэшируемой длины модели ничего не кэшируется, тихо. Производственный режим отказа всегда один: байт у нулевого токена отравляет префикс, переворачивает каждый запрос с чтения 0.1x на запись 1.25x, и единственный сигнал — в блоке usage. Теперь, когда увидишь рост трат на вход без роста трафика, первым делом открой блок usage: высокий cache_creation при нулевом cache_read — значит что-то у нулевого токена сдвинулось.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.