Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают

15 мая 2026, пятница 11:19 Оставить комментарий Источник

Похожие материалы

LLM бенчмарк «Испытание Дали»

Выбирая LLM для своего первого пет-проекта, я случайно создал бенчмарк для LLM "Испытание Дали" по трем параметрам: качество, скорость и стоимость. Этот бенчмарк позволил мне найти оптимальную LLM для встраивания в продукты моей компании Флаг Софт. Возможно, вас тоже заинтересуют его результаты. Читать далее

27 апреля 2026, понедельник 8:01 Источник
Делим кастрюлю компота на ноль. Что получится? Спойлер: ничего хорошего

Одним томным вечером наши разработчики собрались в баре на тимбилдинг и подняли хрестоматийные вопросы: почему нельзя делить на ноль и почему ноль в степени ноль зачастую принимается за единицу. О том, что делить на ноль нельзя, всем известно ещё со школы. На деле это не просто правило, а фундаментальный запрет. Пример простой: Представим, что у нас есть кастрюля компота объемом 10 литров (10 000 мл): Читать далее

9 октября 2025, четверг 11:25 Источник
1C Code Bench - бенчмарк для оценки способности LLM писать код на 1С

В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной оценки этих возможностей мы разработали 1C Code Bench — специализированный бенчмарк, позволяющий систематически тестировать и сравнивать способности различных LLM-моделей решать типовые задачи программирования на 1С. Читать далее

29 декабря 2025, понедельник 13:15 Источник

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

Комментарии

Похожие материалы

LLM бенчмарк «Испытание Дали»

Делим кастрюлю компота на ноль. Что получится? Спойлер: ничего хорошего

1C Code Bench - бенчмарк для оценки способности LLM писать код на 1С