Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового…
Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5…
В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в…
Помните замечательную историю о том, как индийская полиция не отвечала 8 лет на жалобы, потому что потеряла пароль от базы данных, куда эти жалобы попадали? Сегодняшний случай весьма похож — департамент штата Флорида, осуществляющий выдачу лицензии, целый год давал разрешение на ношение оружия без проверки заявителя по базе данных ФБР. Потому что человек, вроде как ответственный за это, потерял пароль. Читать дальше →