Здарова хабровчане! На связе лаборатория Вихрей, сегодня мы расскажем про наш бенчмарк, Шлёпа - большой русский бенчмаркЧто есть сейчас для оценки русскоязычных LLMMera - бенчмарк от Сбера, использует тесты и генерацию, сабмит через сайт, сайт почти не обновлялся с зимы. Почитать про него можно тут Читать далее
Бенчмарк для технологии манипуляции Бенчмарк предназначен для оценки эффективности применения робототехнического комплекса (РТК) в задачах манипуляции предметами по сравнению с использованием ручного человеческого труда. Бенчмарк содержит следующий набор…
Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно…
«Русский человек — падок на халяву». «Русский человек — вороват». «Русский человек хочет решать дела, не вставая с печи». И, конечно, «русский человек — беден». В общем, психологический портрет онлайн-пирата, обходящего все запреты, но получающего своё бесплатно — и даже…