Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig.Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом. Погрузиться

8 апреля 2026, среда 8:27 Оставить комментарий Источник

Похожие материалы

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

3 дня борьбы с ROCm, RX580 и Ollama: как я запустил LLM на домашней видеокартеЯ попытался запустить LLM inference на старой AMD RX580 через ROCm и Ollama в Kubernetes. GPU определялся, VRAM занималась, контейнеры запускались — но inference падал с ошибками hipMemGetInfo, а иногда просто выдавал бессмысленный текст.В статье

15 марта 2026, воскресенье 6:15 Источник
Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp.Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно. Читать далее

22 апреля 2026, среда 9:30 Источник
CVE-2018-11804

Spark's Apache Maven-based build includes a convenience script, 'build/mvn', that downloads and runs a zinc server to speed up compilation. It has been included in release branches since 1.3.x, up to and including master. This server will accept connections from external hosts by default. A specially-crafted request to the zinc server could cause it to reveal information in files readable to the developer account running the build. Note that this issue does not affect end users of Spark, only developers…

25 октября 2018, четверг 2:00 Источник

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

Комментарии

Похожие материалы

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

CVE-2018-11804