Квантование эмбеддингов: что это, зачем оно нужно и как его правильно готовить

Квантование эмбеддингов: что это, зачем оно нужно и как его правильно готовить

Привет, меня зовут Женя. Сегодня я расскажу, что такое квантование эмбеддингов, какие бывают способы квантования и как с их помощью мы в Яндекс.Дзене смогли сократить использование памяти, рейта записи и сетевого трафика в четыре раза. Будет совсем немного математики, умеренно…

2 февраля 2021, вторник 12:41 Оставить комментарий Источник

Похожие материалы

Сравнение различных схем квантования для LLM

Как запустить локально LLM 70B параметров на 1 видеокарте с 24gb? Нужно квантование! Квантование - это процесс уменьшения битности вычислений в нейронной сети, используемых для представления весов, смещений и активаций. Путем снижения точности мы можем значительно сократить требования к памяти и вычислительной сложности модели. Читать далее

4 марта 2024, понедельник 19:15 Источник
Квантование ломает вызов инструментов не так, как показывает BFCL: проверил на MCP-серверах

Как на самом деле квантование ломает вызов инструментов? Собрал бенчмарк QuantMCP, протестировав модели на 4 ГБ VRAM не на синтетике, а на реальных схемах MCP-серверов. Главный инсайт: популярные бенчмарки вроде BFCL систематически врут - корреляция их оценок с реальным падением качества…

8 июля 2026, среда 15:05 Источник
Маленькая модель на 0.6B держит квантование лучше, чем «крупная» на 1B: измерил деградацию function-calling на 4 ГБ VRAM

Как квантование ломает function-calling у LLM? Собрал бенчмарк QuantCall, протестировав модели на 4 ГБ VRAM. Главный инсайт: устойчивость к квантам зависит не от размера, а от семейства. Меньшая Qwen3-0.6B стабильно генерирует валидный JSON даже на Q4, а более крупная Llama-3.2-1B деградирует уже на Q8, путая типы данных. Также GBNF-грамматики не спасают от ошибок, но заметно замедляют инференс. Читать далее

7 июля 2026, вторник 14:38 Источник

Квантование эмбеддингов: что это, зачем оно нужно и как его правильно готовить

Комментарии

Похожие материалы

Сравнение различных схем квантования для LLM

Квантование ломает вызов инструментов не так, как показывает BFCL: проверил на MCP-серверах

Маленькая модель на 0.6B держит квантование лучше, чем «крупная» на 1B: измерил деградацию function-calling на 4 ГБ VRAM