Каждый спринт мы экспортируем JSON из Kibana, листаем сотни записей и говорим себе, что потом превратим их в тест-кейсы, но потом никогда не наступает.Логи содержат реальные API-вызовы. Настоящие endpoint’ы, реальные payload’ы, настоящие статус-коды из продакшна. Это ближайшее к спецификации…
200 задач. 248 тысяч тестов. Девять моделей, среди них всё свежее: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6. На SWE-bench те же модели берут 70 % и выше. На ProgramBench — ноль полного резолва. Лучший «почти решено» у Opus 4.7 — 3 %. У остальных и того нет. Это новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard (2026). Агенту дают
Привет, Хабр! Меня зовут Константин Капошко, я развиваю систему управления проектами Directum Projects и по работе часто встречаюсь с представителями разных российских компаний, чтобы понять их запросы и боли. Вот что я заметил: в компаниях проектная отчетность может выглядеть…
Привет, Хабр! Находясь на конференции UserGate Conf, я думал: а с кем бы поговорить на тему современных киберугроз и построения эффективной защиты. Поэтому выбор пал на человека, кто каждый день сталкивается с реальными атаками и строит системы защиты изнутри. Я…
Автор более 30 лет в ИТ. Начинал инженером-разработчиком в крупном банке, затем несколько лет в международном вендоре консультантом и функциональным архитектором внедрения известной ERP системы. Последние 25 лет в крупной российской компании выступаю в различных проектных ролях…
Точка — самый простой элемент дизайна. И один из самых недооценённых. Рассказываем, как точки работают в интерфейсном, графическом и веб-дизайне на примере цифровых продуктов «Северстали». Больше о точках ????
Что будем делать или что может быть интересного в статье:- Пайплайн из двух независимых LLM агентов- Запуск и анализ ошибки UI автотеста (Root Cause Analysis)- Фикс автотеста в цикле с его запуском.- Кастомизация MCP инструментов чтобы оптимизировать контекстное окно.- Система приоритетов в работе LLM агентов. Читать далее
Привет, Хабр! Меня зовут Данил Зарипов, я эксперт центра безопасности (PT ESC) Positive Technologies. Эту статью мы подготовили вместе с моим коллегой Кириллом Масловым, продуктовым экспертом по направлению Asset Management. Мы закрываем наш цикл статей про аудит ИТ-активов, и сегодня поговорим о…
Представьте: вы запускаете генеративную AI‑фичу в проде. Всё работает как часы. А через месяц получаете иск, потому что ваша модель насоветовала клиентам того, чего не существует в реальных политиках компании. В статье разберем ключевые тренды AI Governance в 2026 году, которые помогают не просто избежать судов и штрафов, а выстроить систему контроля над недетерминированным поведением моделей. Изучить подход
Какие чувства возникают у вас при прочтении такого предложения?«ИИ-агенты — будущее разработки ПО. Нам больше не нужны разработчики, замедляющие прогресс бизнеса».Если вы сеньор-разработчик и считаете, что оно верное, то у меня появляются подозрения о вашем опыте (ниже я…