[Перевод] Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

[Перевод] Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Что если ошибочные ответы модели — не мусор, а ценный обучающий материал? В данной статье мы разберём метод Hindsight Instruction Relabeling (HIR), который позволяет дообучать LLM модели иногда даже лучше, чем RLHF. Кроме того, данный метод требует меньшего количества вычислений, не использует дополнительные модели и вдобавок ко всему максимально использует имеющийся датасет. Читать далее

27 августа 2025, среда 13:49 Оставить комментарий Источник

Похожие материалы

RLHF. История становления идеи — 2

Продолжаем разбирать внутренние детали пайплайна RLHF (обучение с подкреплением на основе обратной связи от человека). Это крайне популярный и широко используемый способ повысить согласованность языковой модели. Разбираем части пайплайна RLHF с точки зрения…

26 июля 2024, пятница 11:00 Источник
От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI.Четыре года спустя у нас зоопарк из десятка…

21 февраля 2026, суббота 19:11 Источник
От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

Что такое дообучение LLM и зачем оно нужно?Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы.Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты. Читать далее

8 июля 2025, вторник 13:15 Источник

[Перевод] Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Комментарии

Похожие материалы

RLHF. История становления идеи — 2

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей