RLHF. История становления идеи

RLHF. История становления идеи — 2

Продолжаем разбирать внутренние детали пайплайна RLHF (обучение с подкреплением на основе обратной связи от человека). Это крайне популярный и широко используемый способ повысить согласованность языковой модели. Разбираем части пайплайна RLHF с точки зрения…

26 июля 2024, пятница 11:00 Оставить комментарий Источник

Похожие материалы

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

Техника тренировки модели на основе обратной связи от людей (RLHF) была предложена как один из способов повысить согласованность модели. Люди, при том что являются основным источником предвзятостей в данных, одновременно являются своего рода высшим авторитетом в оценке текстов…

20 июля 2024, суббота 1:11 Источник
[Перевод] StackLLaMA: практическое руководство по обучению LLaMA с помощью RLHF

ChatGPT, GPT-4 и Claude — это мощные языковые модели, которые дообучают, используя метод, который называется «обучение с подкреплением на основе отзывов людей» (Reinforcement Learning from Human Feedback, RLHF). Благодаря этому такие модели лучше отражают наши ожидания в плане их поведения, они…

24 апреля 2023, понедельник 13:15 Источник
[Перевод] Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Что если ошибочные ответы модели — не мусор, а ценный обучающий материал? В данной статье мы разберём метод Hindsight Instruction Relabeling (HIR), который позволяет дообучать LLM модели иногда даже лучше, чем RLHF. Кроме того, данный метод требует меньшего количества вычислений, не использует дополнительные модели и вдобавок ко всему максимально использует имеющийся датасет. Читать далее

27 августа 2025, среда 13:49 Источник

RLHF. История становления идеи — 2

Комментарии

Похожие материалы

Обучение с подкреплением на основе обратной связи от человека (RLHF). История становления идеи

[Перевод] StackLLaMA: практическое руководство по обучению LLaMA с помощью RLHF

[Перевод] Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF