1C Code Bench - бенчмарк для оценки способности LLM писать код на 1С

1C Code Bench - бенчмарк для оценки способности LLM писать код на 1С

В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной оценки этих возможностей мы разработали 1C Code Bench — специализированный бенчмарк, позволяющий систематически тестировать и сравнивать способности различных LLM-моделей решать типовые задачи программирования на 1С. Читать далее

29 декабря 2025, понедельник 13:15 Оставить комментарий Источник

Похожие материалы

1C Code Bench — бенчмарк для оценки способности LLM писать код на 1С

В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной оценки этих возможностей мы разработали 1C Code Bench — специализированный бенчмарк, позволяющий систематически тестировать и сравнивать способности различных LLM решать типовые задачи программирования на 1С. Читать далее

28 мая 2026, четверг 8:07 Источник
1C Code Bench — спустя 5 месяцев

В прошлой статье я описал 1C Code Bench — бенчмарк для оценки способности LLM писать правильный код на 1С. Там я описал принципы составления задач и проверки результатов, использованные технологии и прочее. На момент написания той статьи бенчмарк насчитывал 20 задач. Читать далее

29 мая 2026, пятница 8:21 Источник
Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в…

7 июня 2025, суббота 16:17 Источник

1C Code Bench - бенчмарк для оценки способности LLM писать код на 1С

Комментарии

Похожие материалы

1C Code Bench — бенчмарк для оценки способности LLM писать код на 1С

1C Code Bench — спустя 5 месяцев

Benchmark — разрушитель LLM'ок, или Как мы собрали свой мультиязычный SWE-Bench