Если вы в 2026 году запускаете LLM в продакшене, то почти наверняка больше всего денег тратите на инференс. Одна неоптимизированная модель размером 70B может сжигать десятки долларов в час на нескольких A100, тогда как грамотно оптимизированный стек дает сопоставимый результат за…
В середине 2025 года приобрел себе для работы ноутбук Lenovo Thinkbook 14+. После выхода моделей gpt-oss протестировал локальный инференс младшей модели и результаты для меня были весьма удивительными. Затем я провел тесты еще на двух своих ноутбуках, а совсем недавно на работе собрал заинтересованных ребят и появились результаты еще 5 ноутбуков. Если коротко - локальный инференс доступнее чем кажется, а детали в статье. Читать далее
Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного порассуждаю об альтернативных реализациях кластера и поделюсь планами по развитию реализации нашей. Читать далее
Приветствую, хабровчане!Идея создания данной публикации крутилась с моей голове уже давно, дело в том, что одно из моих хобби связанно с распределёнными вычислениями, а другое хобби связанно с нейросетями и мне давно не давала покоя идея запустить инференс LLM на нескольких…