Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового…
В эпоху бума больших языковых моделей (LLM) возникает вопрос: насколько хорошо современные LLM пишут код на платформе 1С:Предприятие? Для объективной оценки этих возможностей мы разработали 1C Code Bench — специализированный бенчмарк, позволяющий систематически тестировать и сравнивать способности различных LLM-моделей решать типовые задачи программирования на 1С. Читать далее
Мультимодальные LLM уже умеют «читать» документы — от договоров и таблиц до рукописей и диаграмм. Но измерять их качество на реальных бизнес‑сценариях негде и нечем, особенно если дело касается работы с тяжелым OCR-контентом на русском. Мы собрали MWS Vision Bench — бенчмарк из 5…
Помните замечательную историю о том, как индийская полиция не отвечала 8 лет на жалобы, потому что потеряла пароль от базы данных, куда эти жалобы попадали? Сегодняшний случай весьма похож — департамент штата Флорида, осуществляющий выдачу лицензии, целый год давал разрешение на ношение оружия без проверки заявителя по базе данных ФБР. Потому что человек, вроде как ответственный за это, потерял пароль. Читать дальше →