Ускорение LLM: универсальные методы для популярных архитектур

Ускорение LLM: универсальные методы для популярных архитектур

ML‑модели применяются в сервисах Яндекса уже много лет, мы накопили большой опыт в их обучении. Статьи об этом коллеги регулярно публикуют, в том числе на Хабре. Но сегодня хочу обсудить другую не менее важную задачу — ускорение инференса (процесса работы…

5 февраля 2025, среда 12:00 Оставить комментарий Источник

Похожие материалы

Проблемы с логикой у LLM и с доверием не только у LLM

Проблемы качества базы данных LLM[1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной – оценке доверия к публикациям и их авторам вообще. Вторая проблема – LLM не умеет решать простые логические задачи легко решаемые

22 июля 2024, понедельник 4:23 Источник
Про разработку LLM: какие ещё есть справочники и кукбуки

Сегодня мы продолжим изучать руководства по разработке LLM. А 23 апреля на онлайн-встрече расскажем, почему создание платформы для инференса LLM с нуля — далеко не всегда оптимальный выбор, и объясним, как MWS GPT может значительно упростить и ускорить работу с большими языковыми моделями. Подключайтесь, регистрация открыта по ссылке. Читать далее

8 апреля 2025, вторник 19:09 Источник
Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI

Мы с вами подобрались к заключительной части статьи-инструкции об организации распределённого инференса и шардирования LLM в домашних условиях. Осталось совсем чуть-чуть — в финальной главе разберёмся, как развернуть Open WebUI через Helm и связать его с нашим Ray-кластером. Это даст возможность настроить авторизацию и удобный интерфейс для взаимодействия с нашей моделью. В конце статьи попросим домашнюю LLM подвести итоги всей проделанной работы, а также поговорим о планах по развитию проекта. Читать далее

16 мая 2025, пятница 13:00 Источник

Ускорение LLM: универсальные методы для популярных архитектур

Комментарии

Похожие материалы

Проблемы с логикой у LLM и с доверием не только у LLM

Про разработку LLM: какие ещё есть справочники и кукбуки

Распределённый инференс и шардирование LLM. Часть 3: настройка авторизации и интеграция с Open WebUI