AI / LLM
RAG architecture: тест со свободным воспроизведением
Воспроизведение из памяти бьёт перечитывание. Для каждого промпта реконструируйте полный ответ из памяти до того, как откроете модельный ответ — именно усилие припоминания закрепляет RAG-pipeline как ментальную модель.
Соберите по памяти хребет юнита — почему retrieval (а не генерация) доминирует среди сбоев, лезвие chunking, стоимость embedding, двухстадийная схема retrieve-then-rerank, порядок контекста и abstain-gate.
- 01Почему retrieval, а не генерация — доминирующий режим сбоя в продакшен-RAG, и что на самом деле делает промах retrieval?
- 02Объясните лезвие chunking «размер vs recall» и роль overlap.
- 03Как размерность embedding выступает рычагом стоимости и каков компромисс Matryoshka?
- 04Опишите двухстадийную схему retrieve-wide-then-rerank-narrow и почему одного embedding top-k недостаточно.
- 05Что такое lost-in-the-middle и как из-за этого собирать финальный контекст?
- 06Что такое режим уверенной галлюцинации и как от него защититься (включая устаревший и отравленный индекс)?
Если вы реконструировали каждый ответ из памяти, у вас в руках хребет юнита: retrieval — а не генерация — место, где падает продакшен-RAG; chunking задаёт потолок (размер под смысловую единицу ответа, overlap ~10–15%); размерность embedding — усекаемый рычаг стоимости; разрыв recall-vs-precision решается схемой retrieve-wide-then-rerank-narrow; порядок контекста должен обходить lost-in-the-middle, ставя лучшие доказательства по краям; а режим уверенной галлюцинации — усугубляемый устаревшим и отравленным индексом — гасится gate по score, pipeline свежести и инструкцией отвечать только из контекста или отказываться.