awesome-everything EN
↑ Обратно к восхождению

AI / LLM

LLM-evals: тест на свободное воспроизведение

Суть Промпты на свободное воспроизведение по всему юниту evals. Ответь на каждый своими словами, затем открой модельный ответ и сравни.
Высота — путь к senior
НольJuniorMiddleSenior
Ты на senior-высоте — в орбите
◷ 14 min

Воспроизведение по памяти бьёт перечитывание. На каждый промпт скажи или запиши полный ответ из памяти, прежде чем открыть модельный, — именно усилие припоминания закрепляет материал.

Цель

Восстанови спину юнита — почему недетерминизм ломает обычные тесты, как собрать golden set, когда использовать программный скоринг против judge, как откалибровать judge и в чём разделение offline/online — не подглядывая в урок.

Вспомните перед уходом
  1. 01
    Почему «я попробовал, и работало» — это не тестирование LLM-фичи, и что утверждает eval вместо f(x) === y?
  2. 02
    Как собрать golden set, который реально ловит регрессии, и какая дисциплина держит его честным?
  3. 03
    Когда использовать программную проверку против LLM-as-judge и почему предпочесть программную?
  4. 04
    Назови задокументированные bias у LLM-as-judge и единственный шаг, делающий judge надёжным.
  5. 05
    В чём разница между offline и online оценкой и что каждая ловит, чего не может другая?
  6. 06
    Назови два разных способа, которыми eval-набор бывает зелёным, пока пользователи натыкаются на сбои, и защиту для каждого.
Итог

Если ты смог восстановить каждый ответ по памяти, ты держишь спину юнита: недетерминизм значит, что eval скорит распределение «достаточно хорошего», а не утверждает одно точное значение; golden set строится из реального трафика с покрытием важнее количества и питается каждым продакшн-сбоем; программные проверки скорят структуру бесплатно, а judge берёт лишь open-ended качество; judge смещён (position, self-preference, verbosity) и должен быть откалиброван против человеческих меток — consistency это не accuracy; и ты гейтишь offline в CI, семплируя online для дрейфа, который offline не видит. Зелёный набор лжёт двумя способами — устаревший датасет и неоткалиброванный judge, — так что защищайся от обоих.

Продолжить восхождение ↑LLM-evals: чтение кода и харнесса
хоткеи развернуть
поиск
K
пред. пьеса
k
след. пьеса
j
тиры
t
это меню
?
sources3
expand
  1. 01
  2. 02
  3. 03

Trademarks belong to their respective owners. Editorial reference only.