Шлепа — Большой Русский Бенчмарк

Шлепа — Большой Русский Бенчмарк

Здарова хабровчане! На связе лаборатория Вихрей, сегодня мы расскажем про наш бенчмарк, Шлёпа - большой русский бенчмаркЧто есть сейчас для оценки русскоязычных LLMMera - бенчмарк от Сбера, использует тесты и генерацию, сабмит через сайт, сайт почти не обновлялся с зимы. Почитать про него можно тут Читать далее

2 сентября 2024, понедельник 12:00 Оставить комментарий Источник

Похожие материалы

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему. Читать далее

18 мая 2026, понедельник 12:23 Источник
Manipulation Process Efficiency (MPE) Benchmark

Бенчмарк для технологии манипуляции Бенчмарк предназначен для оценки эффективности применения робототехнического комплекса (РТК) в задачах манипуляции предметами по сравнению с использованием ручного человеческого труда. Бенчмарк содержит следующий набор…

25 декабря 2020, пятница 20:37 Источник
LLM бенчмарк «Испытание Дали»

Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM "Испытание Дали" по трем параметрам: качество, скорость и стоимость. Этот бенчмарк позволил мне найти оптимальную LLM для встраивания в продукты моей компании Флаг Софт. Возможно, вас тоже заинтересуют его результаты. Читать далее

27 апреля 2026, понедельник 8:01 Источник

Шлепа — Большой Русский Бенчмарк

Комментарии

Похожие материалы

Прогнал семь LLM через свой русский спортивный бенчмарк. Базовой моделью всё равно оставляю Gemma 4 31B

Manipulation Process Efficiency (MPE) Benchmark

LLM бенчмарк «Испытание Дали»