[Перевод] StackLLaMA: практическое руководство по обучению LLaMA с помощью RLHF

[Перевод] StackLLaMA: практическое руководство по обучению LLaMA с помощью RLHF

ChatGPT, GPT-4 и Claude — это мощные языковые модели, которые дообучают, используя метод, который называется «обучение с подкреплением на основе отзывов людей» (Reinforcement Learning from Human Feedback, RLHF). Благодаря этому такие модели лучше отражают наши ожидания в плане их поведения, они…

24 апреля 2023, понедельник 13:15 Оставить комментарий Источник

Похожие материалы

RLHF. История становления идеи — 2

Продолжаем разбирать внутренние детали пайплайна RLHF (обучение с подкреплением на основе обратной связи от человека). Это крайне популярный и широко используемый способ повысить согласованность языковой модели. Разбираем части пайплайна RLHF с точки зрения…

26 июля 2024, пятница 11:00 Источник
Llama 3.1 и Mistral Large 2

В прошлом месяце вышли две интересных модели - Llama 3.1, улучшенная версия Llama 3, и Mistral Large 2.Самое заметное отличие Llama 3.1 от предыдущих моделей - у нее есть версия 405B- 405 миллиардов обучаемых параметров. Это самая большая открытая языковая модель, и опубликованные…

13 августа 2024, вторник 14:57 Источник
Мультимодальные приложения на Llama 3.2 и Llama Stack

Недавний релиз Llama 3.2 с мультимодальными версиями 11B и 90B открывает возможности для создания AI приложений, анализирующих визуальный ввод.Мультимодальные модели были и раньше, но это первая официальная версия Llama с такими функциями. Модель может быть использована для…

21 октября 2024, понедельник 13:37 Источник

[Перевод] StackLLaMA: практическое руководство по обучению LLaMA с помощью RLHF

Комментарии

Похожие материалы

RLHF. История становления идеи — 2

Llama 3.1 и Mistral Large 2

Мультимодальные приложения на Llama 3.2 и Llama Stack