Использование метрик в зонтичном мониторинге
Современная ИТ-инфраструктура включает множество разных систем и сервисов. Чтобы быстро реагировать на проблемы и управлять качеством работы, важно не просто собирать метрики, а визуализировать их на понятных дашбордах.
Из этого гайда вы узнаете, как с помощью метрик и дашбордов в Naumen Business Service Monitoring (BSM) контролировать
Что такое метрики в Naumen BSM
Метрики в Naumen BSM — это числовые показатели состояния
В системе применяются два вида метрик:
- Пассивные — показатели, которые Naumen BSM получает напрямую из внешних систем вроде Zabbix или Naumen Network Manager. Например, это могут быть данные о загрузке процессора, ошибки на сервере, время отклика приложения.
- Активные — рассчитываются на основе формул или скриптов, заданных пользователем, и могут сразу запускать автоматические реакции или оповещения. Допустим, если сервис рискует отключиться, создается инцидент.
Метрики помогают быстро находить и решать проблемы еще до того, как пострадает бизнес.
Система зонтичного мониторинга Naumen BSM работает с метриками из разных источников данных и перерабатывает их для принятия тех или иных решений
Преимущества визуализации данных в мониторинге
Визуализация делает сложные технические данные наглядными и понятными для всех — от
На практике: когда инженер видит нагрузку на сервер, а менеджер — только количество обращений в поддержку, никто не замечает общую картину. Но если объединить их данные в одном дашборде, становится видно, что каждый пик нагрузки на сервер тут же вызывает волну жалоб от пользователей. Визуализация помогла быстро обнаружить эту зависимость, найти источник проблемы и предотвратить массовые инциденты.
Кому нужно настроить
В практике внедрений и эксплуатации Naumen BSM накопились рекомендации по выбору оптимального набора метрик в зависимости от
В таблице ниже представлены основные метрики, которые используют для контроля состояния
Роль | Ключевые метрики | Какие решения помогают принимать |
---|---|---|
Руководитель ИТ-департамента, топ-менеджер |
Доступность услуг, время и дата изменения статуса Общее количество событий, отклонений, предупреждений Динамика событий, инциденты по услугам |
Оценить стабильность сервиса и приоритизировать реагирование Контролировать SLA и эскалировать проблемы Выбирать трек развития инфраструктуры |
Дежурный администратор | Доступность услуг, время и дата последнего изменения | Оперативно реагировать на неполадки и расставлять приоритеты |
ИТ-специалист, администратор услуги | Доступность услуги, время обновления статуса Количество отклонений и предупреждений Количество открытых запросов |
Своевременно обслуживать оборудование Быстро устранять сбои и аварии в инфраструктуре Поддерживать актуальность информации и решать каждое обращение |
Менеджер услуги | Доступность услуги, дата изменения статуса Количество и типы активных событий, открытых запросов по услуге |
Контролировать показатели по SLA и управлять приоритетами Эскалировать системные проблемы и обосновывать улучшения |
В Naumen BSM доступна гибкая интерактивная визуализация метрик под нужную роль и задачу. Данные выводятся на дашборды — информационные панели с нужной детализацией. Они легко настраиваются, доступны на любом устройстве и позволяют сразу увидеть основные тренды в работе команд и сервисов.
Как это работает: примеры сборки дашбордов
В Naumen BSM дашборд — это не просто статический отчет, а гибкий инструмент, который легко перестроить под конкретную управленческую задачу.
Для примера сборки возьмем роль руководителя
В зависимости от задач, руководитель может перестраивать свой дашборд. Это позволяет держать в поле зрения именно то, что важно здесь и сейчас:
- при угрозе простоев — акцент на «Здоровье услуг» и ресурсно-сервисную модель;
- при росте числа сбоев — панель событий и инцидентов с детализацией по оборудованию;
- при разработке стратегии — дашборды с триггерами и прогнозами.
Рассмотрим каждый дашборд датальнее.
1. Дашборд здоровья услуг и информационных систем
Показывает текущее состояние сервисов через цветовое кодирование: красный означает, что сервис не работает, зеленый — все хорошо, желтый — предупреждение, серый — потенциально недоступен. Видно, где и когда возникла проблема, что существенно сокращает путь до ее первопричины.
Выведите на дашборд две базовые метрики:
- состояние услуги или системы;
- время последнего изменения.
Аналитика здоровья информационных систем покажет корректность работы на едином экране
Чтобы разобраться, почему работа системы под угрозой или нарушена, прямо на дашборде кликните на нужную услугу или систему и откройте их
2. Дашборд по событиям, услугам и инцидентам
Дашборд связывает технические события с
Советуем вывести на этот дашборд метрики:
- общее количество событий, предупреждений и отклонений;
- динамика поступления событий;
- какое оборудование дает сбои (по какому оборудованию появляются события);
- каких услуг касается оборудование, которое дает сбой;
- сколько инцидентов, созданных по событиям, решены с нарушением SLA;
- сколько всего инцидентов создано по событиям.
Такой дашборд помогает фиксировать тренды, контролировать нагрузку на
Дашборд помогает видеть тренды по поломке оборудования и работе с инцидентами
3. Дашборды с запросами по триггерам, здоровью, статусам и инцидентам по прогнозам
В Naumen BSM инциденты создаются по событиям, которые формируются во внешних источниках или
Триггер — это правило, которое отслеживает метрику и срабатывает, когда ее значение выходит за заданный порог. После этого создается инцидент. Также можно настроить визуализацию динамики по созданию внутренних инцидентов.
Какие метрики выводятся на таком дашборде:
- количество запросов в месяц, созданных при активации триггера;
- статистика инцидентов;
- количество оборудования с разным здоровьем.
Любые объекты системы можно посчитать и вывести статистику на дашборд или учесть их при фильтрации. Например, отдельно вывести число инцидентов, созданных на основании прогнозов. Если подключены другие модели ИИ, то можно их также учитывать при построении дашборда.
Вывод актуальных данных в онлайн-режиме дает точный срез состояния инфраструктуры
ИИ-инструменты для аналитики событий
Современный мониторинг выходит далеко за рамки простого сбора данных. Искусственный интеллект и предиктивная аналитика в Naumen BSM позволяют выявлять потенциальные сбои еще до того, как они повлияют на бизнес.
Кратко разберем, как настроить:
- Выберите метрику, которую нужно контролировать.
- Подключите модель прогнозирования и задайте горизонт прогноза.
- Запустите обучение модели. Обычно занимает несколько минут.
- Дождитесь, когда модель перейдет в статус «Активна». В этом режиме она будет регулярно строить прогнозы по выбранной метрике.
- Добавьте триггер, чтобы зафиксировать пороговые значения метрики. При выходе прогноза за допустимые пределы будет формироваться событие, которое можно использовать для автоматического создания инцидента или запроса.
В результате на дашборде будут отображаться не только текущие показатели, но и прогнозы с учетом вероятных отклонений. Это позволяет работать на опережение.
К выводам
Используйте этот гайд, чтобы собрать свой первый рабочий дашборд, и адаптируйте его под свои задачи. Если остались вопросы, обратитесь за консультацией к нашим экспертам.
Главное, что нужно помнить — эффективность мониторинга определяется не количеством метрик, а их релевантностью для реальной управленческой задачи. Не бойтесь перестраивать дашборды и анализировать новые показатели, чтобы найти удобную комбинацию.