Развернул Gemma 4 31B на одной 4090 (48 ГБ) — и проверил нужен ли «честный» Q8, и переживает ли tool-calling 4-бита.Q8 не дал ничего (+0.007 — шум), зато в 1.6 раза медленнее и вдвое жаднее до памяти. Tool-calling держится на 4-битах — но дело было не в кванте, а в одном флаге сервера (--jinja).Бонус: локально бенчмарк отработал с нулём ошибок, а через облако развалился на 33% обрывов. Суверенный деплой выигрывает не только в цене и задержке. Читать далее
TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта. Читать далее
Прогнали семь LLM через свой русский спортивный бенчмарк. Топовые модели closed-source выигрывают 1.5-1.7 балла. Базовой моделью всё равно остаётся Gemma 4 31B — рассказываю почему. Читать далее
Gemma 4 – это не просто одна модель, а целое семейство открытых систем, разделенное по четкому прикладному принципу. Младшие версии, E2B и E4B, созданы для работы “на местах” – на смартфонах и периферийных устройствах. Старшие, 26B-A4B и 31B, предназначены для серьезных локальных вычислений на рабочих станциях. Это руководство поможет вам разобраться в ветках семейства и выбрать идеальную площадку для запуска. Читать далее