Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового…
В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в…
Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время…
Помните замечательную историю о том, как индийская полиция не отвечала 8 лет на жалобы, потому что потеряла пароль от базы данных, куда эти жалобы попадали? Сегодняшний случай весьма похож — департамент штата Флорида, осуществляющий выдачу лицензии, целый год давал разрешение на ношение оружия без проверки заявителя по базе данных ФБР. Потому что человек, вроде как ответственный за это, потерял пароль. Читать дальше →