[Перевод] Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8

[Перевод] Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8_0

Привет!Задумывались, какую версию квантованной LLM выбрать: Q4_K_M, Q6_K или Q8_0? Насколько Q6_K хуже справляется с задачами по сравнению с Q8_0? И что вообще означают все эти буквы в суффиксах? Примечание: это адаптированный перевод моей статьи на Medium. Перевод был сделан при помощи мозга, а не нейросетей или Google Translate. Узнать чуть больше про квантование LLM

16 июня 2025, понедельник 22:15 Оставить комментарий Источник

Похожие материалы

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи. Читать далее

14 февраля 2026, суббота 8:01 Источник
Как квантовать LLM. Практическое руководство для начинающих

В этой статье я расскажу об основных концепциях квантования, сделаю небольшой обзор популярных методов квантования, а также для каждого метода приведу практический пример на Python для его применения к LLM. ???? Начинаем ????

10 декабря 2025, среда 18:37 Источник
FLUX.2-dev GGUF Q4_K_M на Apple Silicon: куда уходят 29 гигабайт?

В процессе моих изысканий о том как-же создавть изображения локально, я столкнулся с неочевидной, для себя, проблемой в виде колоссального потребления VRAM, которое не сходилось с тем что написано в карточках моделей и в интернете. Я попытался разобраться на примере современной FLUX.2-dev. Чтобы хотябы теоретически влезать в доступную мне VRAM на моем оборудовании я выбрал вариант GGUF Q4_K_M. И вот тут началось все самое интересное. Читать далее

26 марта 2026, четверг 10:33 Источник

[Перевод] Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8_0

Комментарии

Похожие материалы

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Как квантовать LLM. Практическое руководство для начинающих

FLUX.2-dev GGUF Q4_K_M на Apple Silicon: куда уходят 29 гигабайт?