Анатомия трансформеров: почему обычный Self-Attention больше не используют

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Последние годы мы наблюдаем гонку контекстных окон: 32k, 128k, 1 миллион токенов. Но за этой магией скрывается сложная математика, которая прошла долгий путь эволюции. Многие слышали про механизм Attention и загадочные матрицы Query, Key, Value, но далеко не все понимают их физический…

20 января 2026, вторник 7:00 Оставить комментарий Источник

Похожие материалы

Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)

Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает через вычисление весов важности для разных элементов входа: более важные элементы…

8 апреля 2026, среда 4:15 Источник
Involution: Attention is not what you need, или Как скрестить Self-Attention из NLP и Convolution в задачах CV

Если говорить про Self-Attention в картиночных моделях, то тут есть 2 варианта. Олдскульный “давайте просто перевзвесим фичи” в разных вариантах: поканально, пространственно, в некоторой проекции. И новомодный "давайте обучим трансформер" с представлением патчей как визуальных…

16 сентября 2021, четверг 15:15 Источник
[Перевод] ML Q & AI. Глава 8. Успех трансформеров

← Предыдущая глава | В чём секрет успеха трансформеров?В последние годы трансформеры стали самой успешной архитектурой нейронных сетей, особенно в задачах обработки естественного языка. Теперь они близки к тому, чтобы стать SOTA для задач компьютерного зрения тоже. Успех трансформеров обусловлен несколькими ключевыми факторами: их механизм внимания, возможность легкой параллелизации, предварительное обучение без учителя и большое количество параметров. Читать далее

6 сентября 2025, суббота 15:35 Источник

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Комментарии

Похожие материалы

Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)

Involution: Attention is not what you need, или Как скрестить Self-Attention из NLP и Convolution в задачах CV

[Перевод] ML Q & AI. Глава 8. Успех трансформеров