awesome-everything EN
↑ Обратно к восхождению

AI / LLM

RAG architecture: тест со свободным воспроизведением

Суть Промпты на свободное воспроизведение по юниту RAG — компромиссы chunking, стоимость embedding, retrieval wide-then-narrow, lost-in-the-middle и abstain-gate. Сначала ответьте, потом откройте.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 14 min

Воспроизведение из памяти бьёт перечитывание. Для каждого промпта реконструируйте полный ответ из памяти до того, как откроете модельный ответ — именно усилие припоминания закрепляет RAG-pipeline как ментальную модель.

Цель

Соберите по памяти хребет юнита — почему retrieval (а не генерация) доминирует среди сбоев, лезвие chunking, стоимость embedding, двухстадийная схема retrieve-then-rerank, порядок контекста и abstain-gate.

Вспомните перед уходом
  1. 01
    Почему retrieval, а не генерация — доминирующий режим сбоя в продакшен-RAG, и что на самом деле делает промах retrieval?
  2. 02
    Объясните лезвие chunking «размер vs recall» и роль overlap.
  3. 03
    Как размерность embedding выступает рычагом стоимости и каков компромисс Matryoshka?
  4. 04
    Опишите двухстадийную схему retrieve-wide-then-rerank-narrow и почему одного embedding top-k недостаточно.
  5. 05
    Что такое lost-in-the-middle и как из-за этого собирать финальный контекст?
  6. 06
    Что такое режим уверенной галлюцинации и как от него защититься (включая устаревший и отравленный индекс)?
Итог

Если вы реконструировали каждый ответ из памяти, у вас в руках хребет юнита: retrieval — а не генерация — место, где падает продакшен-RAG; chunking задаёт потолок (размер под смысловую единицу ответа, overlap ~10–15%); размерность embedding — усекаемый рычаг стоимости; разрыв recall-vs-precision решается схемой retrieve-wide-then-rerank-narrow; порядок контекста должен обходить lost-in-the-middle, ставя лучшие доказательства по краям; а режим уверенной галлюцинации — усугубляемый устаревшим и отравленным индексом — гасится gate по score, pipeline свежести и инструкцией отвечать только из контекста или отказываться.

Продолжить восхождение ↑RAG architecture: чтение кода и pipeline
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources3
expand
  1. 01
  2. 02
  3. 03

Trademarks belong to their respective owners. Editorial reference only.