ruSciBench — бенчмарк для оценки эмбеддингов научных текстов

ruSciBench — бенчмарк для оценки эмбеддингов научных текстов

Для общеязыковых тематик существует множество мультиязычных бенчмарков (наборов тестовых задач) для оценки качества эмбеддингов, полученных с помощью разных моделей. С помощью этих бенчмарков можно сравнивать модели и выбирать подходящую для своей задачи. К сожалению, в…

18 декабря 2023, понедельник 4:13 Оставить комментарий Источник

Похожие материалы

[Перевод] Бенчмарк для оценки LLM в задачах триажа security-находок

Я создал собственный бенчмарк для оценки языковых моделей, потому что стандартные публичные тесты не отвечают на мой главный вопрос: какая модель лучше справляется с триажем security-находок. Эта задача отличается от оценки общей сообразительности модели. Читать далее

31 мая 2026, воскресенье 11:07 Источник
Manipulation Process Efficiency (MPE) Benchmark

Бенчмарк для технологии манипуляции Бенчмарк предназначен для оценки эффективности применения робототехнического комплекса (РТК) в задачах манипуляции предметами по сравнению с использованием ручного человеческого труда. Бенчмарк содержит следующий набор…

25 декабря 2020, пятница 20:37 Источник
Шлепа — Большой Русский Бенчмарк

Здарова хабровчане! На связе лаборатория Вихрей, сегодня мы расскажем про наш бенчмарк, Шлёпа - большой русский бенчмаркЧто есть сейчас для оценки русскоязычных LLMMera - бенчмарк от Сбера, использует тесты и генерацию, сабмит через сайт, сайт почти не обновлялся с зимы. Почитать про него можно тут Читать далее

2 сентября 2024, понедельник 12:00 Источник

ruSciBench — бенчмарк для оценки эмбеддингов научных текстов

Комментарии

Похожие материалы

[Перевод] Бенчмарк для оценки LLM в задачах триажа security-находок

Manipulation Process Efficiency (MPE) Benchmark

Шлепа — Большой Русский Бенчмарк