Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

Всем привет! Меня зовут Роман Соломатин, я представляю команду AI-Run из X5 Tech, мы занимаемся генеративными сетями в целом и языковыми моделями в частности. Несколько месяцев назад русскоязычное сообщество разработчиков искусственного интеллекта получило инструмент для оценки…

23 сентября 2024, понедельник 17:35 Оставить комментарий Источник

Похожие материалы

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Салют, Хабр! На связи команды AGI NLP и нейронных сетей Виртуального ассистента Салют. В SberDevices наши команды занимаются созданием бенчмарков, а также обучением моделей для векторных представлений текстов или эмбеддеров. В этой статье расскажем про наш новый русскоязычный бенчмарк для эмбеддеров текста — ruMTEB. Читать далее

24 июля 2024, среда 19:16 Источник
Как оценивать LLM на практике, если времени на «идеальный бенчмарк» нет

Меня зовут Алёна, и я более пяти лет занимаюсь оценкой языковых моделей: участвовала в создании таких русскоязычных бенчмарков как Russian SuperGLUE, ruMTEB, куратор проекта Альянса в сфере искусственного интеллекта «MERA» (бенчмарка для оценки русскоязычных LLM), и создатель множества…

30 июня 2026, вторник 6:32 Источник
Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым

Два месяца своих сессий с ИИ скормил скрипту и собрал бенчмарк под СВОЮ работу — не под чужой лидерборд.Результат: тройка «лучших открытых моделей» сжалась в ничью, а в практике победила модель в 37 раз дешевле — потому что отвечает мгновенно, а 744B-гигант думает 22 секунды до первого слова.Важным оказался не балл, а телеметрия, которую балл прячет. Читать далее

24 июня 2026, среда 8:44 Источник

Новый взгляд на оценку русскоязычных моделей: обновлённый бенчмарк ruMTEB и лидерборд

Комментарии

Похожие материалы

ruMTEB: новый бенчмарк для русскоязычных эмбеддеров

Как оценивать LLM на практике, если времени на «идеальный бенчмарк» нет

Собрал ИИ-бенчмарк под себя из 2 месяцев своих сессий — и дорогие модели проиграли дешёвым