Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового…
Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время…
Помните замечательную историю о том, как индийская полиция не отвечала 8 лет на жалобы, потому что потеряла пароль от базы данных, куда эти жалобы попадали? Сегодняшний случай весьма похож — департамент штата Флорида, осуществляющий выдачу лицензии, целый год давал разрешение на ношение оружия без проверки заявителя по базе данных ФБР. Потому что человек, вроде как ответственный за это, потерял пароль. Читать дальше →
Исследователи установили необъяснимое воздействие игровых автоматов на сознание людей. Оказалось, что игроки, входя в игровую зону, впадают в транс, теряют связь с реальностью и способность адекватно реагировать на ситуацию.Специалисты из Центра исследований азартных игр в…