awesome-everything EN
↑ Обратно к восхождению

AI / LLM

Prompt caching: тест с множественным выбором

Суть Синтез по всему юниту prompt caching в формате выбора: сопоставление префикса, экономика записи/чтения, выбор TTL, правила порядка и тихое отравление префикса.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 13 min

Шесть вопросов через весь юнит. Каждый отражает реальное решение — куда ставить cache breakpoint, какой TTL покупать, почему счёт утроился — а не определение для пересказа.

Цель

Убедись, что можешь связать сопоставление префикса токен-в-токен, экономику записи/чтения, выбор TTL и тихий режим отказа, к которому вёл урок.

Викторина

Два запроса несут один и тот же системный промпт и документ на 30k токенов, но в запросе B внутри этого блока один лишний пробел. Сколько в B прочитается из кэша?

Викторина

Префикс записан один раз (1.25x, дефолтный тариф), затем прочитан дважды (0.1x каждый) до истечения. По сравнению с полной ставкой (1.0x) трижды — кэш помог?

Викторина

У RAG-сервиса стабильный префикс на 30k токенов, но трафик всплесками: запросы кучкуются, затем тишина ~15 минут. Какая настройка кэша верна?

Викторина

Cache hit rate упал почти до нуля после деплоя. Ошибок нет, выводы выглядят корректно. Наиболее вероятная причина?

Викторина

На Sonnet ты кэшируешь системный промпт на 600 токенов и не видишь скидки на чтение на повторных запросах, без ошибки. Почему?

Викторина

У тебя длинный слоёный промпт: tools, статический блок system, затем большой документ, меняющийся раз в сутки. Как расставить до 4 cache breakpoints?

Итог

Сквозная линия юнита — одно правило с экономическим движком за ним: сопоставление идёт токен-в-токен с нулевой позиции, поэтому стабильный контент (tools, затем system, затем большой контекст) идёт первым, а волатильный (таймстампы, найденные документы, вопрос пользователя) — последним, с breakpoint на финальном неизменном блоке. Платишь 1.25x один раз за запись и 0.1x за каждое чтение, так что кэш выигрывает после первого перечитывания внутри TTL — 5 минут по дефолту, 1 час для всплесков с паузами. Ниже минимальной кэшируемой длины модели ничего не кэшируется, тихо. Производственный режим отказа всегда один: байт у нулевого токена отравляет префикс, переворачивает каждый запрос с чтения 0.1x на запись 1.25x, и единственный сигнал — в блоке usage.

Продолжить восхождение ↑Prompt caching: тест на свободное припоминание
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources2
expand
  1. 01
  2. 02

Trademarks belong to their respective owners. Editorial reference only.