Сайт работает, 500-ых нет – но заказы с сайта не поступают. Бизнес теряет деньги, а разработчики даже не подозревают что что-то идет не так. Меня зовут Михаил, я из команды Backend разработки D'Terra. Мы прошли через это и поняли: только system-based метрик недостаточно. Нам нужны бизнес метрики в дашбордах, что бы реагировать на такие инциденты. Поэтому я настроили Prometheus под Bitrix так, чтобы на одном дашборде видеть и «железо», и бизнес-часть сайта. Читать далее
В ходе этой статьи мы развернём следующий стек инструментов наблюдаемости Grafana: Loki (логи); Promtail (агент логов); Tempo (трассирровка); Prometheus (метрики); Cortex и Grafana Mimir (долгосрочное хранилище для данных Prometheus); Alertmanager (обработка оповещений Prometheus); Grafana (визуализация). Приступим! Читать дальше →
Вам сказали развернуть систему мониторинга, вы выбрали связку Prometheus + Grafana. Развернули Grafana на своих серверах (VM/Docker/Kubernetes) и подключили Data Source Prometheus (а возможно вам еще сказали развернуть логирование и вы используете Grafana Loki) и далее по гайдам из ютуба начали создавать свои…
База данных временных рядов (TSDB, time series database) в Prometheus 2 – это отличный пример инженерного решения, которое предлагает серьёзные улучшения в сравнении с хранилищем v2 в Prometheus 1 в плане скорости накопления данных и выполнения запросов, эффективности использования ресурсов. Мы внедряли Prometheus 2 в Percona Monitoring and Management (PMM), и у меня была возможность разобраться с производительностью Prometheus 2 TSDB. В этой статье я расскажу о результатах этих наблюдений. Читать дальше →