Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают

Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают

Локальные LLM сейчас — это действительно мощный инструмент. Они уже вплотную приблизились к проприетарным моделям вроде Claude, особенно в задачах кодинга. Я сам активно использую локальные модели для разработки на TypeScript и Go.На данный момент самая интересная модель для моего стека

2 июня 2026, вторник 12:57 Оставить комментарий Источник

Похожие материалы

Qwen3.6 MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений

В llama.cpp добавили поддержку MTP Qwen3.6. Дополнительные слои Multi-Token Prediction позволяют сгенерировать сразу несколько токенов за 1 проход, что ускоряет генерацию в 1.5-2 раза. Качество при этом остается lossless. Для моделей, которые не имеют встроенного MTP, есть альтернативы в лице EAGLE-3 и DFlash. Читать далее

18 мая 2026, понедельник 2:28 Источник
Qwen3-ASR-Toolkit: бесплатный инструмент для транскрипции аудио любой длительности

Команда Alibaba Cloud выпустила Qwen3-ASR-Toolkit — открытый инструмент для транскрипции аудио- и видеофайлов любой длительности. Решение построено на базе модели Qwen3-ASR (ранее Qwen3-ASR-Flash) и устраняет ключевую проблему большинства API для распознавания речи — ограничение по длительности файла. Читать далее

21 сентября 2025, воскресенье 15:18 Источник
Llama 3.1 и Mistral Large 2

В прошлом месяце вышли две интересных модели - Llama 3.1, улучшенная версия Llama 3, и Mistral Large 2.Самое заметное отличие Llama 3.1 от предыдущих моделей - у нее есть версия 405B- 405 миллиардов обучаемых параметров. Это самая большая открытая языковая модель, и опубликованные…

13 августа 2024, вторник 14:57 Источник

Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают

Комментарии

Похожие материалы

Qwen3.6 MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s для Qwen3.6 27B без искажений

Qwen3-ASR-Toolkit: бесплатный инструмент для транскрипции аудио любой длительности

Llama 3.1 и Mistral Large 2