Как тестировать промпты и чейны (Ручная разметка/BERTScore/LLM as judge)

Как тестировать промпты и чейны (Ручная разметка/BERTScore/LLM as judge)

Представьте, что у нас есть бенчмарк из 4 тысяч вопросов и эталонных ответов. Как определить, действительно ли очередное изменение в системе (обновления в промпте, дополнительный агент в цепочке или, например, переход с базового RAG на гибридный) даёт реальный прирост качества? Читать далее

15 апреля 2025, вторник 23:54 Оставить комментарий Источник

Похожие материалы

LLM as a Judge: опыт оптимизации генератора описаний Pull Request

Меня зовут Дмитрий Успенский, я работаю в команде ML RnD Техплатформы Городских сервисов Яндекса, и в статье я расскажу, как мы применили подход LLM as a judge — когда сама языковая модель оценивает качество генераций и сравнивает между собой разные варианты описаний.…

13 мая 2025, вторник 12:00 Источник
[Перевод] LLM-судья: как LLM отсекает правду от лжи?

LLM-as-a-judge — распространённая техника оценки продуктов на основе LLM.Популярность этой техники обусловлена практичностью: она представляет собой удобную альтернативу дорогостоящей человеческой оценке при анализе открытых текстовых ответов.Оценивать сгенерированные тексты…

14 мая 2025, среда 16:10 Источник
Проблемы с логикой у LLM и с доверием не только у LLM

Проблемы качества базы данных LLM[1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной – оценке доверия к публикациям и их авторам вообще. Вторая проблема – LLM не умеет решать простые логические задачи легко решаемые

22 июля 2024, понедельник 4:23 Источник

Как тестировать промпты и чейны (Ручная разметка/BERTScore/LLM as judge)

Комментарии

Похожие материалы

LLM as a Judge: опыт оптимизации генератора описаний Pull Request

[Перевод] LLM-судья: как LLM отсекает правду от лжи?

Проблемы с логикой у LLM и с доверием не только у LLM