Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Сегодня через API стала доступна новая модель YandexGPT 3 Lite. Одним из ключевых этапов её обучения, как и в случае с другими недавними моделями, стал этап выравнивания (Alignment), включающий в том числе стадию обучения с подкреплением (RL). Пожалуй, без этого этапа мы бы не смогли добиться…

28 мая 2024, вторник 14:00 Оставить комментарий Источник

Похожие материалы

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

Привет, меня зовут Андрей Бут, я представляю команду разработки YandexGPT. Сегодня мы анонсируем новое поколение наших больших языковых моделей — YandexGPT 5.Старшая модель — YandexGPT 5 Pro — уже применяется в чате с Алисой, а также доступна в Yandex Cloud через API.

25 февраля 2025, вторник 10:58 Источник
Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения

Сегодня мы открываем доступ к четвёртому поколению наших больших языковых моделей: более мощная YandexGPT 4 Pro и облегчённая YandexGPT 4 Lite уже доступны через API в Yandex Cloud. Постепенно пользователям платформы станут доступны все их возможности. А первым сервисом Яндекса, где…

24 октября 2024, четверг 13:00 Источник
«Сверхвеса» в больших языковых моделях

Обзор посвящен исследованию, на тему «сверхвеса» (super weights) в больших языковых моделях (LLM). Авторы обнаружили, что очень небольшое количество параметров (вплоть до одного скаляра!) в LLM играет непропорционально важную роль в их способности генерировать…

25 января 2025, суббота 23:21 Источник

Как мы готовим RL для Alignment в больших языковых моделях: опыт команды YandexGPT

Комментарии

Похожие материалы

Встречаем YandexGPT 5 — в Алисе, облаке и опенсорсе

Более мощное семейство моделей YandexGPT 4: рост качества ответов, длинный контекст, пошаговые рассуждения

«Сверхвеса» в больших языковых моделях