Если подать один и тот же текст в Opus 4.7 и Opus 4.6, в новой модели он может оказаться представлен гораздо большим числом токенов. А тогда он и обходится дороже, и занимает больше места в контекстном окне. Получается «скрытая инфляция»: цены и лимиты указаны прежние, но на практике…
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её…
В начале мая Кангвук Ли (CAIO Krafton) опубликовал в X разбор: двумя API-вызовами и 35 1M токенов контекста в Claude Opus 4.7 — это «доступно», а не «полезно». В system card §8.7.2 сами Anthropic пишут: на 1M MRCR упал с 78.3% (Opus 4.6) до 32.2% (Opus 4.7), и для long-context retrieval они рекомендуют держать 4.6 как fallback. Деградирует и 4.6 —…
Доброго времени суток, «Хабр»!Год близится к завершению, и за это время мы получили в распоряжение множество вполне достойных моделей. Взять хотя бы тот факт, что в ближайшее время ожидается выход новой версии GPT. К тому же, после моей предыдущей статьи о Claude Opus 4.5 родилась идея: почему бы не устроить состязание среди лидирующих сейчас текстовых моделей?Сегодня в битве участвуют: GPT-5, Claude Opus 4.5 и Gemini 3 Pro. Делайте ставки, а я приступаю к сравнению. Читать далее