Привет, Хабр!Сегодня мы рассмотрим алгоритм Proximal Policy Optimization. Этот алгоритм идеально балансирует стабильность и простоту реализации. В отличие от TRPO, где приходится возиться с жесткими ограничениями и сложными оптимизационными задачами, PPO позволяет обновлять политику через функцию потерь с clippin (на рус. «механим обрезки»).Для наглядности будем использовать кастомную среду «CatChaseEnv», в которой агент‑котик учится ловить лазерную точку. Читать далее
Хотя алгоритмы определения простоты числа известны с древних времён, полиномиального алгоритма долгое время известно не было. То есть было неизвестно, принадлежит ли эта задача классу сложности P. В 2002 году индийскими математиками Агравалом, Кайялом и Саксеной был впервые предложен полиномиальный алгоритм проверки простоты чисел, поставивший точку в этом вопросе. Читать далее
Лабиринты — это распространенная головоломка для людей, но они представляют из себя интересную задачу для программирования, которую мы можем решить, используя методы кратчайшего пути, такие как алгоритм Дейкстры. Вспоминаем алгоритм Дейкстры Алгоритм Дейкстры — один из…
Генетический алгоритм (GA)Генетический алгоритм - это классический эволюционный алгоритм, основанный на случайной переборе параметр. Под случайным здесь мы подразумеваем, что для поиска решения с использованием ГА, случайные изменения применялись к текущим решениям для…