Дано: Компания, использующая фреймворк Scaled Agile (SAFe) для масштабирования Agile-разработки в рамках всей организации; 10 команд разработки, объединённых в одну большую команду (Agile Release Train, согласно терминологии SAFe), доставляющую общий продукт; необходимость проведения двухдневного…
Планирование проектной работы — стандартная практика. Она знакома каждому, кто работал в современных командах разработки. Но что, если ваш сервис — не просто одна команда? Что, если это целый «оркестр» из нескольких самостоятельных коллективов, которым нужно сыграть одну…
Павел на конференции DevOps Conf Павел Селиванов четыре года зарабатывал игрой на контрабасе, бас-гитаре и тубе, а затем ушел в ИТ. Сейчас он архитектор и Developer-адвокат в VK Cloud Solutions, учит других специалистов работе с Kubernetes и выступает на конференциях. В этом интервью: как Паша готовится к выступлениям за четыре часа и почему не боится облажаться на публике. Павел Селиванов выступает 9 декабря на VK Kubernetes Conference, здесь можно посмотреть программу конференции. Читать дальше →
Глубокие модели становятся всё больше и всё реже помещаются на один компьютер. Это перевод поста в блоге Lambda Labs, компании, специализирующейса на инфраструктуре для глубого обучения. В этом посте нам расскажут как организовать распределенное обучение модели PyTorch на нескольких вычислительных узлах. В качестве инструмента для запуска задач рассматриваются torchrun и MPI. Читать далее