Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Долгие годы в NLP считалось правилом хорошего тона связывать матрицу входных эмбеддингов с матрицей выходного классификатора (Weight Tying), чтобы сэкономить память. В этой статье мы разберем геометрическую ошибку этого подхода. Вы узнаете, почему входные и выходные репрезентации имеют прямо противоположные математические цели, и как общая матрица приводит к физическому столкновению градиентов во время обратного распространения ошибки, лишая модель выразительности. Читать далее

18 мая 2026, понедельник 3:44 Оставить комментарий Источник

Похожие материалы

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

Разбираем фундаментальную ошибку в обучении трансформеров: почему стандартный параметр weight_decay в оптимизаторе AdamW буквально уничтожает геометрию эмбеддингов редких токенов и создаёт сопротивление в слоях нормализации. Читать далее

17 мая 2026, воскресенье 18:31 Источник
TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят. Долой трансформеры

26 марта 2026, четверг 15:03 Источник
Проблема глубинных ссылок в HATEOAS

Внешнее связывание (глубинное связывание) — в интернете, это помещение на сайт гиперссылки, которая указывает на страницу, находящуюся на другом веб-сайте, вместо того, чтобы указать на начальную (домашнюю, стартовую) страницу того сайта. Такие ссылки называются внешними…

25 марта 2019, понедельник 13:25 Источник

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Комментарии

Похожие материалы

Тихий убийца Трансформеров: как Weight Decay уничтожает эмбеддинги и нормализацию

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

Проблема глубинных ссылок в HATEOAS