AI / LLM
RAG architecture: тест с множественным выбором
Шесть вопросов, проходящих сквозь весь pipeline. Ни один не про заучивание определения — каждый это решение, которое вы принимаете, пока RAG-система молча выдаёт уверенные и неверные ответы в продакшене.
Убедитесь, что вы связываете chunking, стоимость embedding, двухстадийный retrieval, сборку контекста и режим отказа, обусловленный retrieval, в единый диагноз — тот синтез, к которому вёл весь юнит.
Бот поддержки уверенно сообщает конкретную, но неверную цифру оттока за Q3; ответ месяц проходил ревью незамеченным. Где чаще всего лежит причина и почему она невидима?
В документе политика указывает правило, а исключение к нему стоит абзацем ниже. Запросы про исключение возвращают полуправду. Какое изменение chunking — правильный первый шаг?
p99 поиска по индексу слишком велик на 3072 измерениях, а стоимость хранения растёт. Какой senior-компромисс до смены инфраструктуры?
Почему «retrieve широко (k=20–50), затем rerank узко до 3–8 через cross-encoder» лучше одиночного embedding top-3?
У вас окно на 128k токенов, поэтому вы запихиваете все 40 извлечённых чанков в порядке retrieval и ставите решающий примерно в середину. Что предсказывает литература?
RAG-бот, работавший на прошлой неделе, теперь возвращает политику прошлого квартала без изменений кода и без ошибок. Самая вероятная причина и структурное исправление?
Сквозная линия юнита — единый диагноз: продакшен-RAG падает на retrieval, а не на генерации. Chunking задаёт потолок (размер под смысловую единицу ответа, overlap для выживания стыков); размерность embedding — реальный рычаг стоимости, который можно усекать; разрыв recall-vs-precision решается схемой retrieve-wide-then-rerank-narrow; порядок контекста должен обходить lost-in-the-middle, ставя лучшие доказательства по краям; а устаревший или отравленный индекс превращает тихий промах в уверенный неверный ответ — от чего защищают gate по score, свежесть и инструкция отвечать только из контекста или говорить «я не знаю».