AI / LLM AI · 03 · 07

RAG architecture: тест с множественным выбором

Синтез по всему юниту RAG в формате выбора — chunking, стоимость embedding, retrieval по схеме wide-then-narrow, lost-in-the-middle и режим уверенной галлюцинации.

AI Senior ◷ 13 min

Уровень

ОсновыJuniorMiddleSenior

Шесть вопросов, проходящих сквозь весь pipeline. Ни один не про заучивание определения — каждый это решение, которое вы принимаете, пока RAG-система молча выдаёт уверенные и неверные ответы в продакшене.

Цель

Убедитесь, что вы связываете chunking, стоимость embedding, двухстадийный retrieval, сборку контекста и режим отказа, обусловленный retrieval, в единый диагноз — тот синтез, к которому вёл весь юнит.

Викторина

Бот поддержки уверенно сообщает конкретную, но неверную цифру оттока за Q3; ответ месяц проходил ревью незамеченным. Где чаще всего лежит причина и почему она невидима?

Викторина

В документе политика указывает правило, а исключение к нему стоит абзацем ниже. Запросы про исключение возвращают полуправду. Какое изменение chunking — правильный первый шаг?

Викторина

p99 поиска по индексу слишком велик на 3072 измерениях, а стоимость хранения растёт. Какой senior-компромисс до смены инфраструктуры?

Викторина

Почему «retrieve широко (k=20–50), затем rerank узко до 3–8 через cross-encoder» лучше одиночного embedding top-3?

Викторина

У вас окно на 128k токенов, поэтому вы запихиваете все 40 извлечённых чанков в порядке retrieval и ставите решающий примерно в середину. Что предсказывает литература?

Викторина

RAG-бот, работавший на прошлой неделе, теперь возвращает политику прошлого квартала без изменений кода и без ошибок. Самая вероятная причина и структурное исправление?

Итог

Сквозная линия юнита — единый диагноз: продакшен-RAG падает на retrieval, а не на генерации. Chunking задаёт потолок (размер под смысловую единицу ответа, overlap для выживания стыков); размерность embedding — реальный рычаг стоимости, который можно усекать; разрыв recall-vs-precision решается схемой retrieve-wide-then-rerank-narrow; порядок контекста должен обходить lost-in-the-middle, ставя лучшие доказательства по краям; а устаревший или отравленный индекс превращает тихий промах в уверенный неверный ответ — от чего защищают gate по score, свежесть и инструкция отвечать только из контекста или говорить «я не знаю».

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.