Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

Привет, Хабр!Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning. Читать далее

11 августа 2025, понедельник 14:30 Оставить комментарий Источник

Похожие материалы

Inference-Time Scaling for Generalist Reward Modeling

DeepSeek прокачивает RL: генеративная reward-модель с «рассуждением»В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга. Читать далее

30 мая 2025, пятница 19:29 Источник
Неблокирующий повтор (retry) в Java и проект Loom

Неблокирующий повтор (retry) в Java и проект Loom Введение Повтор (retry) операции является старейшим механизмом обеспечения надежности программного обеспечения. Мы используем повторы при выполнении HTTP запросов, запросов к базам данных, отсылке электронной почты и проч. и проч. Читать дальше →

30 ноября 2022, среда 18:56 Источник
Spring, kafka, неблокирующий retry, лаги

История об особенностях использования механизмов retry, которые дает spring-kafka из коробки и проблемах с производительностью.Есть нужно сделать асинхронный retry сообщений на топике, который бы не блокировал основной поток сообщений «легко и быстро» — вам сюда????(А потом после «легко и быстро» несколько дней дебажить ????) Читать далее

1 апреля 2026, среда 17:15 Источник

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

Комментарии

Похожие материалы

Inference-Time Scaling for Generalist Reward Modeling

Неблокирующий повтор (retry) в Java и проект Loom

Spring, kafka, неблокирующий retry, лаги