Что если ошибочные ответы модели — не мусор, а ценный обучающий материал? В данной статье мы разберём метод Hindsight Instruction Relabeling (HIR), который позволяет дообучать LLM модели иногда даже лучше, чем RLHF. Кроме того, данный метод требует меньшего количества вычислений, не использует дополнительные модели и вдобавок ко всему максимально использует имеющийся датасет. Читать далее
Продолжаем разбирать внутренние детали пайплайна RLHF (обучение с подкреплением на основе обратной связи от человека). Это крайне популярный и широко используемый способ повысить согласованность языковой модели. Разбираем части пайплайна RLHF с точки зрения…
Что такое дообучение LLM и зачем оно нужно?Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы.Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты. Читать далее
Привет, чемпионы! С каждым днем появляется все больше и больше LLM. Их метрики растут с таким же бешеным темпом. Но в узких областях знаний они до сих пор дают осечку. Почему это происходит и как с эти бороться? - Разбираем универсальный код для дообучения LLM на своих данных! Дообучать LLM!