AI / LLM
Prompt caching: тест с множественным выбором
Шесть вопросов через весь юнит. Каждый отражает реальное решение — куда ставить cache breakpoint, какой TTL покупать, почему счёт утроился — а не определение для пересказа.
Убедись, что можешь связать сопоставление префикса токен-в-токен, экономику записи/чтения, выбор TTL и тихий режим отказа, к которому вёл урок.
Два запроса несут один и тот же системный промпт и документ на 30k токенов, но в запросе B внутри этого блока один лишний пробел. Сколько в B прочитается из кэша?
Префикс записан один раз (1.25x, дефолтный тариф), затем прочитан дважды (0.1x каждый) до истечения. По сравнению с полной ставкой (1.0x) трижды — кэш помог?
У RAG-сервиса стабильный префикс на 30k токенов, но трафик всплесками: запросы кучкуются, затем тишина ~15 минут. Какая настройка кэша верна?
Cache hit rate упал почти до нуля после деплоя. Ошибок нет, выводы выглядят корректно. Наиболее вероятная причина?
На Sonnet ты кэшируешь системный промпт на 600 токенов и не видишь скидки на чтение на повторных запросах, без ошибки. Почему?
У тебя длинный слоёный промпт: tools, статический блок system, затем большой документ, меняющийся раз в сутки. Как расставить до 4 cache breakpoints?
Сквозная линия юнита — одно правило с экономическим движком за ним: сопоставление идёт токен-в-токен с нулевой позиции, поэтому стабильный контент (tools, затем system, затем большой контекст) идёт первым, а волатильный (таймстампы, найденные документы, вопрос пользователя) — последним, с breakpoint на финальном неизменном блоке. Платишь 1.25x один раз за запись и 0.1x за каждое чтение, так что кэш выигрывает после первого перечитывания внутри TTL — 5 минут по дефолту, 1 час для всплесков с паузами. Ниже минимальной кэшируемой длины модели ничего не кэшируется, тихо. Производственный режим отказа всегда один: байт у нулевого токена отравляет префикс, переворачивает каждый запрос с чтения 0.1x на запись 1.25x, и единственный сигнал — в блоке usage.