Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в…

7 июня 2025, суббота 16:17 Оставить комментарий Источник

Похожие материалы

Как мы собираем SWE-bench на других языках

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время…

16 апреля 2025, среда 0:08 Источник
1C Code Bench - бенчмарк для оценки способности LLM писать код на 1С

В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной оценки этих возможностей мы разработали 1C Code Bench — специализированный бенчмарк, позволяющий систематически тестировать и сравнивать способности различных LLM-моделей решать типовые задачи программирования на 1С. Читать далее

29 декабря 2025, понедельник 13:15 Источник
SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода

Всем привет! Пару месяцев Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил MERA CODE — бенчмарк для оценки качества умений написания кода для больших языковых моделей. Инструмент хороший, но есть одна проблема. Все задачи в MERA CODE, как впрочем и в SWE-bench…

18 сентября 2025, четверг 16:00 Источник

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Комментарии

Похожие материалы

Как мы собираем SWE-bench на других языках

1C Code Bench - бенчмарк для оценки способности LLM писать код на 1С

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода