К современным IT-системам предъявляются очень жесткие требования — они должны быть доступны практически 24/7, чтобы выдерживать конкуренцию на рынке. Для обеспечения такой надежности и доступности существует особый подход — SRE, Site Reliability Engineering.Меня зовут Иван Круглов, я работаю в
Представьте: у вас десятки микросервисов, миллионы логов и трассировок, а ваша задача — поддерживать SLA и не дать системе сломаться. Ручная настройка SLO (Service Level Objectives) и мониторинг SLI (Service Level Indicators) превращается в кошмар.SLO-Scout решает эту проблему с помощью AI, анализа телеметрии и автоматизации, позволяя SRE сосредоточиться на надежности, а не на ручной рутине. Читать далее
Установка SLO (Service Level Objective, целевых уровней обслуживания) — одна из базовых задач SRE. По этим показателям удобно оценивать надежность службы. Противоположность SLO — бюджет на ошибки, то есть какой уровень ненадежности считать допустимым. Когда мы определим эти показатели и
Слёрм приглашает на митап «Профессия SRE: практика и мифы». Поговорим про SRE с экспертами, обсудим вопросы участников. Повестка дня: Что такое SRE и зачем все это нужно IT и бизнесу? SRE – хайп или проверенный подход? Как с этим работать? Практики SRE. Как внедрить у себя? Что нужно, чтобы стать SRE-инженером? Начало митапа: 3 ноября, вторник, 19.00 МСК. Читать дальше →