Привет, Хабр!Сегодня мы рассмотрим алгоритм Proximal Policy Optimization. Этот алгоритм идеально балансирует стабильность и простоту реализации. В отличие от TRPO, где приходится возиться с жесткими ограничениями и сложными оптимизационными задачами, PPO позволяет обновлять политику через функцию потерь с clippin (на рус. «механим обрезки»).Для наглядности будем использовать кастомную среду «CatChaseEnv», в которой агент‑котик учится ловить лазерную точку. Читать далее
В книге «Законы простоты » Джон Маэда (из MIT) предлагает десять законов для баланса простоты и сложности в бизнесе, технологиях и дизайне — руководящие принципы для того, чтобы нуждаться в меньшем и на самом деле получать больше.Законы простоты охватывают пересечение дизайна, технологий и бизнеса. Они предлагают десять руководящих принципов для проектирования более простых систем. Читать далее
Хотя алгоритмы определения простоты числа известны с древних времён, полиномиального алгоритма долгое время известно не было. То есть было неизвестно, принадлежит ли эта задача классу сложности P. В 2002 году индийскими математиками Агравалом, Кайялом и Саксеной был впервые предложен полиномиальный алгоритм проверки простоты чисел, поставивший точку в этом вопросе. Читать далее
Лабиринты — это распространенная головоломка для людей, но они представляют из себя интересную задачу для программирования, которую мы можем решить, используя методы кратчайшего пути, такие как алгоритм Дейкстры. Вспоминаем алгоритм Дейкстры Алгоритм Дейкстры — один из…