awesome-everything EN
↑ Обратно к восхождению

AI / LLM

RAG architecture: тест с множественным выбором

Суть Синтез по всему юниту RAG в формате выбора — chunking, стоимость embedding, retrieval по схеме wide-then-narrow, lost-in-the-middle и режим уверенной галлюцинации.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 13 min

Шесть вопросов, проходящих сквозь весь pipeline. Ни один не про заучивание определения — каждый это решение, которое вы принимаете, пока RAG-система молча выдаёт уверенные и неверные ответы в продакшене.

Цель

Убедитесь, что вы связываете chunking, стоимость embedding, двухстадийный retrieval, сборку контекста и режим отказа, обусловленный retrieval, в единый диагноз — тот синтез, к которому вёл весь юнит.

Викторина

Бот поддержки уверенно сообщает конкретную, но неверную цифру оттока за Q3; ответ месяц проходил ревью незамеченным. Где чаще всего лежит причина и почему она невидима?

Викторина

В документе политика указывает правило, а исключение к нему стоит абзацем ниже. Запросы про исключение возвращают полуправду. Какое изменение chunking — правильный первый шаг?

Викторина

p99 поиска по индексу слишком велик на 3072 измерениях, а стоимость хранения растёт. Какой senior-компромисс до смены инфраструктуры?

Викторина

Почему «retrieve широко (k=20–50), затем rerank узко до 3–8 через cross-encoder» лучше одиночного embedding top-3?

Викторина

У вас окно на 128k токенов, поэтому вы запихиваете все 40 извлечённых чанков в порядке retrieval и ставите решающий примерно в середину. Что предсказывает литература?

Викторина

RAG-бот, работавший на прошлой неделе, теперь возвращает политику прошлого квартала без изменений кода и без ошибок. Самая вероятная причина и структурное исправление?

Итог

Сквозная линия юнита — единый диагноз: продакшен-RAG падает на retrieval, а не на генерации. Chunking задаёт потолок (размер под смысловую единицу ответа, overlap для выживания стыков); размерность embedding — реальный рычаг стоимости, который можно усекать; разрыв recall-vs-precision решается схемой retrieve-wide-then-rerank-narrow; порядок контекста должен обходить lost-in-the-middle, ставя лучшие доказательства по краям; а устаревший или отравленный индекс превращает тихий промах в уверенный неверный ответ — от чего защищают gate по score, свежесть и инструкция отвечать только из контекста или говорить «я не знаю».

Продолжить восхождение ↑RAG architecture: тест со свободным воспроизведением
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources3
expand
  1. 01
  2. 02
  3. 03

Trademarks belong to their respective owners. Editorial reference only.