Привет, Хабр!Сегодня мы рассмотрим алгоритм Proximal Policy Optimization. Этот алгоритм идеально балансирует стабильность и простоту реализации. В отличие от TRPO, где приходится возиться с жесткими ограничениями и сложными оптимизационными задачами, PPO позволяет обновлять политику через функцию потерь с clippin (на рус. «механим обрезки»).Для наглядности будем использовать кастомную среду «CatChaseEnv», в которой агент‑котик учится ловить лазерную точку. Читать далее
В книге «Законы простоты » Джон Маэда (из MIT) предлагает десять законов для баланса простоты и сложности в бизнесе, технологиях и дизайне — руководящие принципы для того, чтобы нуждаться в меньшем и на самом деле получать больше.Законы простоты охватывают пересечение дизайна, технологий и бизнеса. Они предлагают десять руководящих принципов для проектирования более простых систем. Читать далее
Хотя алгоритмы определения простоты числа известны с древних времён, полиномиального алгоритма долгое время известно не было. То есть было неизвестно, принадлежит ли эта задача классу сложности P. В 2002 году индийскими математиками Агравалом, Кайялом и Саксеной был впервые предложен полиномиальный алгоритм проверки простоты чисел, поставивший точку в этом вопросе. Читать далее
Представьте, что вас каждый день просят «быстренько развернуть стенд» — с OpenSearch, PPO и десятком доработанных инструментов, «ну чтобы все работало». Сначала вы автоматизируете то, что делали руками. Потом автоматизируете автоматизацию. А потом в какой-то момент понимаете: нужно не