Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Самый просто способ запустить локальную LLM - это установить ollama или LM Studio. Это быстро и просто, но вы теряете и в скорости, и в качестве. Почему UD_Q4_K_XL лучше при том же размере, почему квант Q3 может быть медленнее чем Q4. Хорошая ли идея взять REAP для вырезания ненужных экспертов из MoE. Кто быстрее, Linux или Windows. В общем как выжать больше из локальных LLM на домашнем железе. Читать далее

23 апреля 2026, четверг 22:13 Оставить комментарий Источник

Похожие материалы

Lemonade — локальный LLM-сервер при поддержке AMD. Зачем он нужен, если есть Ollama?

Ryzen AI 9 HX 370 - это чип с NPU на 50 TOPS и Ollama его не видит - из-за своей архитектуры. Собственно, сама Ollama работает поверх llama.cpp, llama.cpp поддерживает GPU через CUDA, Metal, Vulkan и ROCm. А вот AMD GPU Ollama запускает - через ROCm и Vulkan. Но AMD NPU на базе архитектуры XDNA туда, к сожалению, не входит. Ryzen AI 300, Ryzen 8040, Ryzen 7040 -

4 мая 2026, понедельник 14:37 Источник
Как поднять локальрную LLM за 5 минут

Как поднять локальную LLM за 5 минут ????Хотите свой ChatGPT, который работает локально и не требует интернета? В статье показываю, как развернуть Ollama + OpenWebUI в Docker: • Ollama — инструмент для запуска локальных LLM (LLaMA, Mistral, Gemma и др.) • LLaMA — серия открытых языковых моделей от Meta • OpenWebUI —…

4 августа 2025, понедельник 19:30 Источник
Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang

В этой статье будет приведено практическое руководство по базовой настройке и запуску следующих инструментов для работы с LLM: Ollama, LM Studio, vLLM, Triton, llama.cpp, SGLang. ???? Начинаем? ????

20 сентября 2025, суббота 19:31 Источник

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Комментарии

Похожие материалы

Lemonade — локальный LLM-сервер при поддержке AMD. Зачем он нужен, если есть Ollama?

Как поднять локальрную LLM за 5 минут

Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang