AI / LLM AI · 07 · 08

LLM-evals: тест на свободное воспроизведение

Промпты на свободное воспроизведение по всему юниту evals. Ответь на каждый своими словами, затем открой модельный ответ и сравни.

AI Senior ◷ 14 min

Уровень

ОсновыJuniorMiddleSenior

Воспроизведение по памяти бьёт перечитывание. На каждый промпт скажи или запиши полный ответ из памяти, прежде чем открыть модельный, — именно усилие припоминания закрепляет материал.

Цель

Восстанови спину юнита — почему недетерминизм ломает обычные тесты, как собрать golden set, когда использовать программный скоринг против judge, как откалибровать judge и в чём разделение offline/online — не подглядывая в урок.

Вспомните перед уходом

01
Почему «я попробовал, и работало» — это не тестирование LLM-фичи, и что утверждает eval вместо f(x) === y?
02
Как собрать golden set, который реально ловит регрессии, и какая дисциплина держит его честным?
03
Когда использовать программную проверку против LLM-as-judge и почему предпочесть программную?
04
Назови задокументированные bias у LLM-as-judge и единственный шаг, делающий judge надёжным.
05
В чём разница между offline и online оценкой и что каждая ловит, чего не может другая?
06
Назови два разных способа, которыми eval-набор бывает зелёным, пока пользователи натыкаются на сбои, и защиту для каждого.

Итог

Если ты смог восстановить каждый ответ по памяти, ты держишь спину юнита: недетерминизм значит, что eval скорит распределение «достаточно хорошего», а не утверждает одно точное значение; golden set строится из реального трафика с покрытием важнее количества и питается каждым продакшн-сбоем; программные проверки скорят структуру бесплатно, а judge берёт лишь open-ended качество; judge смещён (position, self-preference, verbosity) и должен быть откалиброван против человеческих меток — consistency это не accuracy; и ты гейтишь offline в CI, семплируя online для дрейфа, который offline не видит. Зелёный набор лжёт двумя способами — устаревший датасет и неоткалиброванный judge, — так что защищайся от обоих. Теперь, когда коллега пропускает калибровку, потому что «judge выглядел стабильным», ты знаешь, где именно рассыпается доверие — и что проверить первым.

Что-то непонятно?

Задай вопрос по этому уроку. Вопросы анонимны и попадают напрямую автору — урок станет лучше.