99.9% аптайма.Три невинные цифры, которые хостинг-компании размещают по всем своим маркетинговым материалам как знаки отличия. Звучит впечатляюще, не так ли? Почти идеальная надежность. Ваш сайт работает стабильно 999 минут из каждой 1000.Но вот что они вам не говорят: 99.9% аптайма…
В прошлый раз я писал про рекурсивную задачу мониторинга: кто мониторит монитор? Если Prometheus упал — вы не видите ничего, и самое коварное тут в том, что отвалившийся мониторинг внешне неотличим от идеальной стабильности. Та статья заканчивалась честно и немного грустно: чистого решения нет, есть только слои подстраховки и остаточный риск, с которым приходится жить. Или всё таки есть?
2 июня мой мониторинг аптайма разом отрапортовал, что упало почти всё: 932 инцидента за 25 минут. Сайты были живы — все до единого. Виноваты дефолтный лимит файловых дескрипторов 1024 и «оптимизация», тихо размножившаяся в 60 раз. Разбираю по приборам: /proc, ss, EMFILE и почему docker compose restart не спасает. Читать далее
Многие думают, что 99.9% аптайма – это почти идеальная работа сервиса. На деле эта цифра означает, что ваш сервис может лежать до 8 часов 45 минут в год. Посмотреть расчеты