HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других.Полистав WhitePaper HighFlyer, можно наткнуться на описание собственного…

2 февраля 2025, воскресенье 15:07 Оставить комментарий Источник

Похожие материалы

Интервью с DeepSeek: в чем смысл жизни и свиных крылышек

Китайский стартап DeepSeek выпустил в открытый доступ свою большую языковую модель DeepSeek-R1, которая, как заявлено, лучше аналогов от OpenAI, а обучение этой модели было гораздо дешевле. Кроме того, DeepSeek действительно открытая и ее можно запустить локально. В этой статье вас ждет действительно простая инструкция по развертыванию локальной модели DeepSeek. А также короткое, но разнообразное интервью на русском языке с DeepSeek-R1, ее локальной копией, ChatGPT-4o и ChatGPT-o1. Читать дальше →

29 января 2025, среда 16:14 Источник
[Перевод] Неужели DeepSeek скопировала OpenAI?

В последние несколько дней вокруг китайского ИИ-стартапа DeepSeek разгорелись споры о том, что он якобы использует проприетарные модели OpenAI.Вопрос возник после того, как DeepSeek выпустила две модели, DeepSeek-V3 и DeepSeek-R1, производительность которых сопоставима с аналогами OpenAI при…

30 января 2025, четверг 19:24 Источник
[Перевод] Как установить и использовать DeepSeek R-1 на вашем компьютере

Многие говорят о DeepSeek R-1 - новой языковой ИИ-модели с открытым исходным кодом, созданной китайской ИИ-компанией DeepSeek. Некоторые пользователи утверждают, что по возможностям рассуждения она не уступает или даже превосходит модель o1 от OpenAI.В настоящее время DeepSeek можно…

24 января 2025, пятница 14:54 Источник

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Комментарии

Похожие материалы

Интервью с DeepSeek: в чем смысл жизни и свиных крылышек

[Перевод] Неужели DeepSeek скопировала OpenAI?

[Перевод] Как установить и использовать DeepSeek R-1 на вашем компьютере