97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия

97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя. Читать далее

15 марта 2026, воскресенье 12:55 Оставить комментарий Источник

Похожие материалы

MoE: Как Смесь Экспертов меняет правила игры в мире AI

При просмотре последних опубликованных статей вы можете заметить в названиях слово «MoE». Что же означает это «MoE» и почему его так часто используют сейчас? В этом наглядном руководстве мы подробно рассмотрим этот важный компонент с более чем 50 иллюстрациями: Смесь Экспертов (MoE)! Читать далее

16 февраля 2025, воскресенье 12:33 Источник
Вам нужна RAM, а не VRAM. Параметр -cmoe для запуска больших и огромных моделей LLM локально. Ускоряем GPT-OSS-120B

Всё больше выходит больших MoE моделей с малым числом активных параметров. У MoE совсем другой сценарий нагрузки и использования ресурсов нежели у Dense моделей, достаточно немного VRAM. Большие MoE модели устроит 1 GPU и много обычной RAM. О том, как устроены MoE и как ускорить работу одним параметром не меняя железо. Читать далее

1 ноября 2025, суббота 10:58 Источник
Какие видеокарты выгоднее для бизнеса — RTX 4090 или серверная RTX A5000?

Сравниваем новую игровую видеокарту от компании Nvidia — GeForce RTX 4090 и мощную серверную карту RTX A5000: рассказываем об их характеристиках и оцениваем эффективность в решении бизнес-задач. Читать далее

6 февраля 2023, понедельник 15:48 Источник

97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика

Комментарии

Похожие материалы

MoE: Как Смесь Экспертов меняет правила игры в мире AI

Вам нужна RAM, а не VRAM. Параметр -cmoe для запуска больших и огромных моделей LLM локально. Ускоряем GPT-OSS-120B

Какие видеокарты выгоднее для бизнеса — RTX 4090 или серверная RTX A5000?