Переход от FP16 к 8 битному квантованию был триумфом инженерии, позволившим запускать LLM на потребительском железе почти без потерь. Но сегодня индустрия сошла с ума. 4 бита стали нормой, 3 бита преподносятся как новый стандарт, а на GitHub всерьез обсуждают 2-битные и 1.58-битные модели. В
В этой статье я расскажу об основных концепциях квантования, сделаю небольшой обзор популярных методов квантования, а также для каждого метода приведу практический пример на Python для его применения к LLM. ???? Начинаем ????
Совсем недавно я наткнулся на очередное обсуждение DevRel в «Разборе Полетов», в котором услышал странно знакомое слово «карго-культ». Потом оно же всплыло и в Telegram-канале Алексея 23derevo Федорова. Потом еще где-то… Всё это привело меня к мысли, что карго-культ охватил умы людей во…
Давайте разберёмся в том, как работает новый метод квантования больших языковых моделей HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS) Читать далее