Работодатель спрятал в PDF с тестовым заданием скрытую инструкцию для ИИ. Claude Opus 4.6 не только отказался ее выполнять, но и предупредил кандидата о ловушке. Разбираемся, как устроена гонка вооружений между HR и соискателями в эпоху LLM. И главное, как проверять такие документы перед работой. Читать далее
Доброго времени суток, «Хабр»!Год близится к завершению, и за это время мы получили в распоряжение множество вполне достойных моделей. Взять хотя бы тот факт, что в ближайшее время ожидается выход новой версии GPT. К тому же, после моей предыдущей статьи о Claude Opus 4.5 родилась идея: почему бы не устроить состязание среди лидирующих сейчас текстовых моделей?Сегодня в битве участвуют: GPT-5, Claude Opus 4.5 и Gemini 3 Pro. Делайте ставки, а я приступаю к сравнению. Читать далее
Как использовать в России нейросети Claude без VPN. Обзор Claude Opus 4.6, Sonnet, Haiku: тесты, возможности, фишки и удобные способы оплаты. Читать далее
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её…