Data engineering DATA · 07 · 07

Vector search: тест с выбором ответа

Тест с выбором на синтез по всему юниту vector search — recall vs latency, HNSW vs IVF-PQ, метрики расстояния, post-filtering и тихий провал recall.

DATA Senior ◷ 13 min

Уровень

ОсновыJuniorMiddleSenior

Шесть вопросов поперёк всего юнита. Каждый отражает решение, которое ты принимаешь, глядя на RAG-пайплайн, возвращающий десять ранжированных строк, быстро, без ошибок — и не те десять.

Цель

Убедись, что связываешь embedding, выбор ANN-индекса, треугольник recall–latency–memory, метрики расстояния и production-ловушки — тот синтез, к которому вёл урок.

Викторина

RAG-поиск возвращает десять ранжированных строк за 2 мс без ошибок, но поддержка сообщает, что бот 'не находит' документы, которые явно есть. Самая вероятная причина и как её подтвердить?

Викторина

RAG-сервис на ~5M чанков с непрерывным приёмом данных, высокими требованиями к recall и запасом RAM. Какой индекс выбрать по умолчанию и почему?

Викторина

Поднятие hnsw.ef_search со 100 до 500 двигает recall с ~85% до ~98%, но latency с ~1 мс до ~5 мс. Как это читать senior-инженеру?

Викторина

Команда хранит нормализованные embedding и спорит про cosine similarity vs внутреннее (dot) произведение. Что верно?

Викторина

Поиск с областью видимости тенанта добавляет WHERE tenant_id = ? поверх HNSW-запроса, и для маленьких тенантов recall резко падает. Почему и как чинить?

Викторина

Пользователи ищут точную строку ошибки 'ECONNREFUSED', а чистый vector search хоронит нужный документ под смутно-связанными абзацами. Лучший фикс?

Итог

Сквозная линия — один треугольник recall, latency, memory — и одна привычка: провалы recall тихие. Пул кандидатов (ef_search / probes) задаёт recall vs latency, семейство индекса задаёт память и дрейф (HNSW для изменяющихся данных, IVFFlat для статики, IVF-PQ когда не влезает в RAM), метрика должна совпадать с тем, как обучались embedding, post-filtering ломает селективные фильтры (используй iterative scan), а потребность в точных токенах требует hybrid BM25 + vector с rank fusion. Прежде всего — измеряй recall@k против точного baseline, иначе летишь вслепую.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.