AI / LLM
LLM-evals: тест на свободное воспроизведение
Воспроизведение по памяти бьёт перечитывание. На каждый промпт скажи или запиши полный ответ из памяти, прежде чем открыть модельный, — именно усилие припоминания закрепляет материал.
Восстанови спину юнита — почему недетерминизм ломает обычные тесты, как собрать golden set, когда использовать программный скоринг против judge, как откалибровать judge и в чём разделение offline/online — не подглядывая в урок.
- 01Почему «я попробовал, и работало» — это не тестирование LLM-фичи, и что утверждает eval вместо f(x) === y?
- 02Как собрать golden set, который реально ловит регрессии, и какая дисциплина держит его честным?
- 03Когда использовать программную проверку против LLM-as-judge и почему предпочесть программную?
- 04Назови задокументированные bias у LLM-as-judge и единственный шаг, делающий judge надёжным.
- 05В чём разница между offline и online оценкой и что каждая ловит, чего не может другая?
- 06Назови два разных способа, которыми eval-набор бывает зелёным, пока пользователи натыкаются на сбои, и защиту для каждого.
Если ты смог восстановить каждый ответ по памяти, ты держишь спину юнита: недетерминизм значит, что eval скорит распределение «достаточно хорошего», а не утверждает одно точное значение; golden set строится из реального трафика с покрытием важнее количества и питается каждым продакшн-сбоем; программные проверки скорят структуру бесплатно, а judge берёт лишь open-ended качество; judge смещён (position, self-preference, verbosity) и должен быть откалиброван против человеческих меток — consistency это не accuracy; и ты гейтишь offline в CI, семплируя online для дрейфа, который offline не видит. Зелёный набор лжёт двумя способами — устаревший датасет и неоткалиброванный judge, — так что защищайся от обоих.