Как запустить локально LLM 70B параметров на 1 видеокарте с 24gb? Нужно квантование! Квантование - это процесс уменьшения битности вычислений в нейронной сети, используемых для представления весов, смещений и активаций. Путем снижения точности мы можем значительно сократить требования к памяти и вычислительной сложности модели. Читать далее
В этой статье я расскажу об основных концепциях квантования, сделаю небольшой обзор популярных методов квантования, а также для каждого метода приведу практический пример на Python для его применения к LLM. ???? Начинаем ????
Группа российских ученых из компании Smart Engines и МФТИ предложила новый способ квантования бинарных нейронных сетей. Им удалось добиться лучших результатов для обучения таких сетей. Работа опубликована в журнале Computer Optics 2024.Ученые из МФТИ с коллегами совершили прорыв,…
Давайте разберёмся в том, как работает новый метод квантования больших языковых моделей HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) Читать далее