Всем привет. Меня зовут Дима, в Т-Банке я руковожу Центром надежности информационных систем. Мы проводим консультирование, обучаем и внедряем SRE-практики, нанимаем и аттестуем инженеров. В общем, делаем все, чтобы помочь командам Т-Банка — а их уже более 2500 — разрабатывать…
TL;DR Чтобы добиться высокой наблюдаемости контейнеров и микросервисов, журналов и первичных метрик мало. Для более быстрого восстановления и повышения отказоустойчивости приложения должны применять Принцип высокой наблюдаемости (HOP, High Observability Principle). На уровне приложение для…
Всем привет! Меня зовут Филипп Бочаров, я руководитель центра мониторинга и наблюдаемости в МТС Digital. Мы с командой делаем платформу Наблюдаемости – это набор сервисов, который позволяет сделать работу других продуктов МТС прозрачной и понятной. Сегодня я расскажу про…
В ходе этой статьи мы развернём следующий стек инструментов наблюдаемости Grafana: Loki (логи); Promtail (агент логов); Tempo (трассирровка); Prometheus (метрики); Cortex и Grafana Mimir (долгосрочное хранилище для данных Prometheus); Alertmanager (обработка оповещений Prometheus); Grafana (визуализация). Приступим! Читать дальше →