Туториал: запускаем Hunyuan-A13B модель на vLLM и на llama.cpp

Туториал: запускаем Hunyuan-A13B модель на vLLM и на llama.cpp

Недавно вышла новая модель - Hunyuan-A13B:https://huggingface.co/tencent/Hunyuan-A13B-Instruct-GPTQ-Int4 (это уже квант) Читать далее

10 июля 2025, четверг 10:29 Оставить комментарий Источник

Похожие материалы

Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang

В этой статье будет приведено практическое руководство по базовой настройке и запуску следующих инструментов для работы с LLM: Ollama, LM Studio, vLLM, Triton, llama.cpp, SGLang. ???? Начинаем? ????

20 сентября 2025, суббота 19:31 Источник
Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления. В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3. Вперёд!

14 мая 2025, среда 13:00 Источник
Llama 3.1 и Mistral Large 2

В прошлом месяце вышли две интересных модели - Llama 3.1, улучшенная версия Llama 3, и Mistral Large 2.Самое заметное отличие Llama 3.1 от предыдущих моделей - у нее есть версия 405B- 405 миллиардов обучаемых параметров. Это самая большая открытая языковая модель, и опубликованные…

13 августа 2024, вторник 14:57 Источник

Туториал: запускаем Hunyuan-A13B модель на vLLM и на llama.cpp

Комментарии

Похожие материалы

Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Llama 3.1 и Mistral Large 2