LLM Judge для валидации образовательного контента: архитектура кросс-модельной оценки с бюджетом $0.014 за курсКак мы решили проблему "стохастической дивергенции" при генерации уроков и снизили затраты на валидацию в 17,000 раз по сравнению с ручной проверкой Читать далее
Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge. Для каждого метода есть описание и код…
LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM.Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой оценке при анализе открытых текстовых ответов.Оценивать сгенерированные тексты…
Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход LLM as a judge — когда сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний.…