vLLM Production Stack. Часть 1: Базовые возможности vLLM

vLLM Production Stack. Часть 1: Базовые возможности vLLM

Статья будет о том, как быстро начать работать с vLLM и vLLM Production Stack: от первого запуска модели до базовых режимов инференса через OpenAI-совместимый API. Разберем практические настройки и сценарии запуска — tool calling, thinking/non-thinking, мультимодальные и CPU-модели, а так же какие стартовые…

27 марта 2026, пятница 16:09 Оставить комментарий Источник

Похожие материалы

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления. В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3. Вперёд!

14 мая 2025, среда 13:00 Источник
DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно.Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически…

9 мая 2026, суббота 14:47 Источник
Наручные часы Часы мужские, из нержавеющей стали, черный

Номер модели WSD-133-C Происхождение Китай Стиль Повседневный Тип товара Кварцевые наручные часы Возможности Секундомер с остановом Возможности Ударопрочный Возможности Luminous Возможности Автоматическая настройка времени Возможности Хронограф Возможности Полный календарь Возможности Фаза луны Возможности Водонепроницаемый Возможности Плавать Возможности luminous hands Механизм QUARTZ Диаметр циферблата 42 Материал корпуса Нержавеющая сталь Тип материала окошка циферблата Хардлекс Форма корпуса […]

14 октября 2023, суббота 16:02 Источник

vLLM Production Stack. Часть 1: Базовые возможности vLLM

Комментарии

Похожие материалы

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

Наручные часы Часы мужские, из нержавеющей стали, черный