GGUF: квантизация с калибровкой (imatrix)

GGUF: квантизация с калибровкой (imatrix)

Привет, хабровчане!Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp в частности, поскольку придерживаюсь мнения, что 1-2% потери в точности и отсутствие некоторых плюшек - не так важно, по сравнению с удобством деплоя,…

6 октября 2025, понедельник 7:58 Оставить комментарий Источник

Похожие материалы

Девушки, котики и Flux Kontext: как выжать максимум из WebUI Forge?

У кошачьих лапок, женской анатомии и квантованных Checkpoint есть одно общее - все они начинают «страдать», если генератору не хватает шагов и VRAM.В этой статье мы рассмотрим сравнение моделей Flux dev Q8_0.GGUF с новой, недавно вышедшей в открытый доступ комьюнити версией Flux Kontext dev Q8_0.GGUF и Flux Kontext dev bnb-nf4 + Hyper Flux.1 dev-8steps Lora и с Flux Kontext dev.safetensors для генерации одиночных изображений и совмещения одного изображения с другим. Читать далее

12 июля 2025, суббота 21:32 Источник
Квантизация изображений

Квантизация — уменьшение цветов изображения (wiki). Конечно, сейчас мало кому это необходимо, но задача сама по себе интересная. Квантизированная Лена привлекает внимание Например, старый добрый формат GIF использует палитру, максимум на 256 цветов. Если вы захотите сохранить серию…

18 ноября 2016, пятница 11:47 Источник
Квантизация позволяет запускать Llama 3.2 на мобилках

Квантизация помогла портировать последнюю версию LLM Llama 3.2 на мобильные платформы - iOS и Android. Для этого разработчики выпустили квантованные версии Llama 3.2 1B и 3B, которые при тестах на ARM-процессорах показали высокую скорость инференса, по сравнению с несжатыми весами в формате…

5 ноября 2024, вторник 18:27 Источник

GGUF: квантизация с калибровкой (imatrix)

Комментарии

Похожие материалы

Девушки, котики и Flux Kontext: как выжать максимум из WebUI Forge?

Квантизация изображений

Квантизация позволяет запускать Llama 3.2 на мобилках