awesome-everything EN
↑ Обратно к восхождению

Data engineering

Vector search: тест на свободное воспроизведение

Суть Промпты на свободное воспроизведение по юниту vector search — сначала ответь по памяти, затем раскрой модельный ответ и сравни.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 14 min

Воспроизведение бьёт перечитывание. На каждый промпт скажи или запиши полный ответ по памяти, прежде чем открыть модельный — усилие припоминания и закрепляет материал.

Цель

Восстанови позвоночник юнита — треугольник recall–latency–memory, почему recall падает тихо, HNSW vs IVF vs IVF-PQ, выбор метрики, post-filtering и hybrid search — не подглядывая в урок.

Вспомните перед уходом
  1. 01
    Почему ANN-индекс с низким recall так опасен в проде и как его реально обнаружить?
  2. 02
    Опиши треугольник recall–latency–memory и какая ручка двигает какую ось в HNSW.
  3. 03
    Когда выбираешь HNSW, IVFFlat или IVF-PQ и чего стоит каждый?
  4. 04
    Как связаны cosine, dot product и L2 и как выбрать метрику?
  5. 05
    Почему фильтрация по метаданным плохо взаимодействует с ANN и как это решает pgvector?
  6. 06
    Что такое hybrid search, когда он нужен и как Reciprocal Rank Fusion соединяет результаты?
Итог

Если смог восстановить каждый ответ по памяти — держишь позвоночник юнита: recall падает тихо, поэтому меряешь recall@k против точного baseline; треугольник recall–latency–memory крутится через M, ef_construction и ef_search; HNSW — дефолт, а IVF-PQ — запасной выход по памяти; метрика должна совпадать с моделью и opclass индекса; селективные фильтры обваливают post-filtered recall, пока не используешь iterative scan; а hybrid BM25 + vector с rank fusion — ответ всегда, когда важны точные токены.

Продолжить восхождение ↑Vector search: чтение кода и запросов
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources3
expand
  1. 01
  2. 02
  3. 03

Trademarks belong to their respective owners. Editorial reference only.