Вступление. В мире ИИ разгораются споры: может ли сравнительно небольшая модель превзойти или хотя бы заменить гиганта на порядок большего размера? Недавний пример — противостояние между Qwen QwQ 32B (32-миллиардная модель от Alibaba) и DeepSeek 671B (671-миллиардная…
Число параметров всегда имело значение — по крайней мере, так нас убеждали. Этой догме следовали до тех пор, пока 6 марта Alibaba не представила QwQ-32B — компактную модель с 32 млрд параметров, бросившую вызов тяжеловесу DeepSeek‑R1 с его 671 миллиардами. Это…
Китайский стартап DeepSeek выпустил в открытый доступ свою большую языковую модель DeepSeek-R1, которая, как заявлено, лучше аналогов от OpenAI, а обучение этой модели было гораздо дешевле. Кроме того, DeepSeek действительно открытая и ее можно запустить локально. В этой статье вас ждет действительно простая инструкция по развертыванию локальной модели DeepSeek. А также короткое, но разнообразное интервью на русском языке с DeepSeek-R1, ее локальной копией, ChatGPT-4o и ChatGPT-o1. Читать дальше →
Казалось бы, мир еще не успел оправиться от новостей о китайской нейросети, которая догнала ChatGPT и обвалила фондовый рынок. Но вот уже DeepSeek не справляется с потоком пользователей, а техногигант Alibaba презентовал обновленную модель — Qwen 2.5 Max. При этом решения из Китая не только…