Разбираем фундаментальную ошибку в обучении трансформеров: почему стандартный параметр weight_decay в оптимизаторе AdamW буквально уничтожает геометрию эмбеддингов редких токенов и создаёт сопротивление в слоях нормализации. Читать далее
В предыдущей статье я обратил внимание на интересное поведение Weight Decay, здесь я рассматриваю его более подробно. В индустрии ML принято считать: если мы берем обученную модель и делаем Fine-Tuning на новой задаче, старые веса постепенно перезаписываются. А если добавить Weight Decay…
← Предыдущая глава | В чём секрет успеха трансформеров?В последние годы трансформеры стали самой успешной архитектурой нейронных сетей, особенно в задачах обработки естественного языка. Теперь они близки к тому, чтобы стать SOTA для задач компьютерного зрения тоже. Успех трансформеров обусловлен несколькими ключевыми факторами: их механизм внимания, возможность легкой параллелизации, предварительное обучение без учителя и большое количество параметров. Читать далее
Усадьбу, принадлежащую некогда скандально известному художнику Валахову, не зря называют Тихим домом. Огороженная высоким забором, она надёжно вычеркнута из жизни города, а внутри старинного здания царит абсолютная пугающая тишина. Дана пришла в Тихий дом в надежде разыскать его главное сокровище и завершить начатый некогда ритуал, но тут в игру вступают силы, чьи возможности значительно превосходят человеческие… Тихий дом. Нури А. в наличиивозможна доставка. Цена: 207.00 ₽ КУПИТЬ