Алгоритм PPO: баланс стабильности и простоты в RL

Алгоритм PPO: баланс стабильности и простоты в RL

Привет, Хабр!Сегодня мы рассмотрим алгоритм Proximal Policy Optimization. Этот алгоритм идеально балансирует стабильность и простоту реализации. В отличие от TRPO, где приходится возиться с жесткими ограничениями и сложными оптимизационными задачами, PPO позволяет обновлять политику через функцию потерь с clippin (на рус. «механим обрезки»).Для наглядности будем использовать кастомную среду «CatChaseEnv», в которой агент‑котик учится ловить лазерную точку. Читать далее

6 марта 2025, четверг 21:21 Оставить комментарий Источник

Похожие материалы

Законы простоты

В книге «Законы простоты » Джон Маэда (из MIT) предлагает десять законов для баланса простоты и сложности в бизнесе, технологиях и дизайне — руководящие принципы для того, чтобы нуждаться в меньшем и на самом деле получать больше.Законы простоты охватывают пересечение дизайна, технологий и бизнеса. Они предлагают десять руководящих принципов для проектирования более простых систем. Читать далее

5 июля 2025, суббота 11:36 Источник
Полиномиальный алгоритм проверки чисел на простоту: тест Агравала-Каяла-Саксены

Хотя алгоритмы определения простоты числа известны с древних времён, полиномиального алгоритма долгое время известно не было. То есть было неизвестно, принадлежит ли эта задача классу сложности P. В 2002 году индийскими математиками Агравалом, Кайялом и Саксеной был впервые предложен полиномиальный алгоритм проверки простоты чисел, поставивший точку в этом вопросе. Читать далее

3 ноября 2024, воскресенье 16:56 Источник
[Перевод - recovery mode ] Учебный проект на Python: алгоритм Дейкстры, OpenCV и UI ( часть 1)

Лабиринты — это распространенная головоломка для людей, но они представляют из себя интересную задачу для программирования, которую мы можем решить, используя методы кратчайшего пути, такие как алгоритм Дейкстры. Вспоминаем алгоритм Дейкстры Алгоритм Дейкстры — один из…

2 июля 2020, четверг 21:49 Источник

Алгоритм PPO: баланс стабильности и простоты в RL

Комментарии

Похожие материалы

Законы простоты

Полиномиальный алгоритм проверки чисел на простоту: тест Агравала-Каяла-Саксены

[Перевод - recovery mode ] Учебный проект на Python: алгоритм Дейкстры, OpenCV и UI ( часть 1)