Снижаем стоимость инференса. Часть 1. Популярные подходы и что помогло нам повысить утилизацию GPU на 70%

Снижаем стоимость инференса. Часть 1. Популярные подходы и что помогло нам повысить утилизацию GPU на 70%

Привет, Хабр! Меня зовут Данила Гудынин, я DevOps-инженер направления Evolution ML Inference в Cloud.ru. В мире машинного обучения GPU — главный актив, но что делать, когда ваши дорогостоящие видеокарты используются всего на 50%? Мы у себя столкнулись именно с такой проблемой и, чтобы наши клиенты не…

24 сентября 2025, среда 11:38 Оставить комментарий Источник

Похожие материалы

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

Привет, Хабр! На связи снова Данила Гудынин, DevOps-инженер направления Evolution ML Inference в Cloud.ru. В прошлой статье про снижение стоимости инференса мы пробежались по теории того, что и на каких уровнях стека можно подкрутить, чтобы повысить утилизацию своих GPU. Там вы могли…

3 октября 2025, пятница 14:00 Источник
Kubernetes 1.29.15 и GPU: как починить пропавшие видеокарты и настроить Time-Slicing

В Ситидрайве Kubernetes обновляют регулярно — инфраструктура большая, и актуальность версий критически важна. После апгрейда до версии 1.29.15 один из GPU-узлов внезапно «забыл» о своей видеокарте, и нам пришлось срочно искать решение. В этой статье я расскажу, в чём была причина бага и как Time-Slicing помог повысить утилизацию GPU. Статья будет полезна всем, кто работает с GPU в Kubernetes и хочет избежать подобных сюрпризов в продакшене. Читать далее

15 октября 2025, среда 8:29 Источник
[Перевод] ML Q & AI. Глава 7. Парадигмы обучения на нескольких GPU

← Предыдущая глава | Какие существуют подходы к обучению на нескольких GPU и в чем их сильные и слабые стороны?Подходы к обучению на нескольких GPU можно разделить на две группы: разделение данных для параллельной обработки несколькими GPU и разделение модели по нескольким GPU…

21 августа 2025, четверг 11:37 Источник

Снижаем стоимость инференса. Часть 1. Популярные подходы и что помогло нам повысить утилизацию GPU на 70%

Комментарии

Похожие материалы

Снижаем стоимость инференса. Часть 2. IBM KServe ModelMesh, vLLM Production Stack и что внутри у нашего решения

Kubernetes 1.29.15 и GPU: как починить пропавшие видеокарты и настроить Time-Slicing

[Перевод] ML Q & AI. Глава 7. Парадигмы обучения на нескольких GPU