[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых…

26 марта 2026, четверг 14:57 Оставить комментарий Источник

Похожие материалы

Квантизация позволяет запускать Llama 3.2 на мобилках

Квантизация помогла портировать последнюю версию LLM Llama 3.2 на мобильные платформы - iOS и Android. Для этого разработчики выпустили квантованные версии Llama 3.2 1B и 3B, которые при тестах на ARM-процессорах показали высокую скорость инференса, по сравнению с несжатыми весами в формате…

5 ноября 2024, вторник 18:27 Источник
Квантизация изображений

Квантизация — уменьшение цветов изображения (wiki). Конечно, сейчас мало кому это необходимо, но задача сама по себе интересная. Квантизированная Лена привлекает внимание Например, старый добрый формат GIF использует палитру, максимум на 256 цветов. Если вы захотите сохранить серию…

18 ноября 2016, пятница 11:47 Источник
Локальные LLM на слабом железе — что ставить, как запустить, чего ждать

Три года назад запустить 7-миллиардную модель локально означало профессиональный GPU. Потом появилась квантизация - сжатие весов с 32-битной точности до 4-битной. Модель стала в 3-4 раза легче при минимальной потере качества. 7B параметров теперь занимают 4-5 ГБ вместо 14. Читать далее

25 апреля 2026, суббота 6:11 Источник

[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Комментарии

Похожие материалы

Квантизация позволяет запускать Llama 3.2 на мобилках

Квантизация изображений

Локальные LLM на слабом железе — что ставить, как запустить, чего ждать