Где живут LLM: разбираем инференс-кластер YADRO и тестируем его производительность

Где живут LLM: разбираем инференс-кластер YADRO и тестируем его производительность

Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного порассуждаю об альтернативных реализациях кластера и поделюсь планами по развитию реализации нашей. Читать далее

30 июля 2025, среда 13:44 Оставить комментарий Источник

Похожие материалы

Тестируем пять моделей DeepSeek R1 и Qwen3 на серверах YADRO

Привет, Хабр. Меня зовут Дмитрий Крюков, я инженер по разработке ПО искусственного интеллекта в YADRO. Мы продолжаем рассказывать о возможностях GPU-серверов YADRO G4208P и YADRO VEGMAN R220 G2 в работе с локальными (on-premise) LLM-моделями. Сегодня делимся результатами тестирования популярных LLM из…

11 сентября 2025, четверг 15:54 Источник
Локальный инференс на бюджетных ноутбуках

В середине 2025 года приобрел себе для работы ноутбук Lenovo Thinkbook 14+. После выхода моделей gpt-oss протестировал локальный инференс младшей модели и результаты для меня были весьма удивительными. Затем я провел тесты еще на двух своих ноутбуках, а совсем недавно на работе собрал заинтересованных ребят и появились результаты еще 5 ноутбуков. Если коротко - локальный инференс доступнее чем кажется, а детали в статье. Читать далее

9 декабря 2025, вторник 9:45 Источник
Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMax

Итак, вы внедрили ИИ в свой сервис и решили ехать в продакшен, где у вас много пользователей. Закономерно возникает вопрос — а на чем запустить инференс, чтобы и пользователи были довольны скоростью работы, и бизнес не разорился.Привет! На связи Никита, системный архитектор в…

15 мая 2026, пятница 8:00 Источник

Где живут LLM: разбираем инференс-кластер YADRO и тестируем его производительность

Комментарии

Похожие материалы

Тестируем пять моделей DeepSeek R1 и Qwen3 на серверах YADRO

Локальный инференс на бюджетных ноутбуках

Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMax