[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Прошло семь лет с момента разработки оригинальной архитектуры GPT. На первый взгляд, если оглянуться на GPT-2 (2019) и взглянуть вперёд на DeepSeek-V3 и Llama 4 (2024–2025), можно удивиться, насколько эти модели по-прежнему структурно схожи.Разумеется, позиционные эмбеддинги эволюционировали от…

28 июля 2025, понедельник 16:00 Оставить комментарий Источник

Похожие материалы

GPT‑4.1 глазами веб‑разработчика: возможности, интеграция и примеры

В апреле 2025 года OpenAI представила серию моделей GPT‑4.1 – сразу три версии: GPT‑4.1 (полноразмерная), GPT‑4.1 mini и GPT‑4.1 nano. Все они значительно превосходят предшественников (GPT‑4.0, также называемый GPT‑4o, и GPT‑4o mini) по качеству кодирования, следованию инструкциям и работе с…

15 апреля 2025, вторник 11:29 Источник
Субъективный взгляд на перспективы Больших Языковых Моделей

Прошло около полугода после последней моей статьи о перспективах развития больших языковых моделей. Чтобы не утомлять долгим чтением, её краткое резюме:Критика современных больших языковых моделей (БЯМ): они статичны, неэффективны в вычислениях и обучении, что ведет индустрию…

25 января 2025, суббота 0:26 Источник
Почему токенизация – костыль? Передовые подходы для больших языковых моделей следующего поколения

Сдерживает ли токенизация потенциал больших языковых моделей? Несмотря на свою популярность, этот подход имеет ряд ограничений, которые становятся всё более заметными с развитием LLM. В статье мы разберём, почему токенизация является костылём, какие проблемы она создаёт и какие альтернативные методы предлагают исследователи для их решения. От байтовых моделей до работы с концептами — как пытаются улучшить ситуацию и что это может означать для будущего языковых моделей. Читать далее

12 января 2025, воскресенье 19:15 Источник

[Перевод] Эволюция архитектур больших языковых моделей: от GPT-2 к современным решениям

Комментарии

Похожие материалы

GPT‑4.1 глазами веб‑разработчика: возможности, интеграция и примеры

Субъективный взгляд на перспективы Больших Языковых Моделей

Почему токенизация – костыль? Передовые подходы для больших языковых моделей следующего поколения