Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в…

7 июня 2025, суббота 16:17 Оставить комментарий Источник

Похожие материалы

Как мы собираем SWE-bench на других языках

Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время…

16 апреля 2025, среда 0:08 Источник
[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её…

6 апреля 2026, понедельник 15:48 Источник
SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода

Всем привет! Пару месяцев Альянс в сфере искусственного интеллекта, в который MWS AI тоже входит, запустил MERA CODE — бенчмарк для оценки качества умений написания кода для больших языковых моделей. Инструмент хороший, но есть одна проблема. Все задачи в MERA CODE, как впрочем и в SWE-bench…

18 сентября 2025, четверг 16:00 Источник

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

Комментарии

Похожие материалы

Как мы собираем SWE-bench на других языках

[Перевод] Разбираем 14 самых популярных бенчмарков для LLM

SWE-MERA — новый динамический бенчмарк для моделей агентной генерации кода