Управление событиями в Naumen BSM: правила и сценарии

Перегрузки или отключения оборудования напрямую влияют на работу связанных ИТ-сервисов. Зонтичный мониторинг помогает автоматически оценивать критичность происшествий в инфраструктуре, а при необходимости сразу регистрировать инциденты. В статье расскажем, как работает управление событиями в Naumen BSM.

Какие уровни зонтичного мониторинга бывают

Naumen Business Service Monitoring подключается к внешним источникам, например, системам корневого мониторинга, и агрегирует различные данные. Процессы сбора и обработки данных каждого типа выделяются в отдельные уровни мониторинга:

автоинвентаризация;
управление событиями;
мониторинг метрик.

Каждый уровень отвечает за свою задачу, а вместе они помогают получить комплексный срез состояния инфраструктуры. В результате ИТ-служба получает возможность действовать проактивно и минимизировать количество сбоев.

Уровень мониторинга	Тип данных	Ценность
Дискаверинг ИТ-активов	Объекты — оборудование и виртуальные среды	Сбор инвентаризационных данных Быстрое наполнение CMDB Полная и достоверная информация об объектах учета
Управление событиями	События, происходящие с объектами	Автоматическая регистрация инцидентов Предотвращение «шторма тревог» — регистрации инцидентов об одной и той же поломке Расчет здоровья объектов инфраструктуры, систем, услуг
Мониторинг метрик	Метрики состояния объектов	Автоматическое вычисление сложных показателей Различные сценарии реагирования на нетиповые значения Визуализация данных в удобном для анализа виде Прогнозирование значений и выявление аномалий с помощью ML-моделей

Рассмотрим, какие задачи выполняются в рамках второго уровня.

Зачем управлять событиями в мониторинге

Системы инфраструктурного мониторинга собирают информацию о работоспособности ИТ-ландшафта компании. Когда устройство отключается, перегружено, работает нестабильно или, наоборот, восстановилось, системы генерируют специальные сообщения. В них содержится информация, что именно происходит. При классическом мониторинге оценкой «сырых» данных занимаются разные сотрудники.

Например, администратор Zabbix изучает сообщения только от этого ПО. Администратор Naumen Network Manager — от соответствующей системы. В работающей инфраструктуре зачастую генерируется множество сообщений, поэтому проводить анализ вручную сложно. Кроме того, на основе разрозненных данных практически невозможно составить комплексное представление о происходящем.

Зонтичный мониторинг позволяет автоматизировать этот процесс: обработать сообщения, оценить здоровье оборудования и сервисов, а при необходимости — создать инцидент.

*Процесс обмена данными о событиях в зонтичном мониторинге*

Как обрабатываются события

В Naumen BSM используются правила типизации. Они помогают получить ответ на вопрос: что значит для инфраструктуры конкретное событие и как его оценивать?

Внешние источники передают в систему сообщения с десятками разных статусов. По каждому сообщению регистрируется событие. Правила типизации позволяют определить тип каждого. В стандартной версии Naumen BSM это «Отклонение», «Восстановление», «Информация» и «Предупреждение».

На этапе работы с правилом типизации также может быть определена ситуация, исходя из той информации, которая пришла из внешнего источника.

Как события влияют на оценку здоровья оборудования и услуг

Данные, выявленные при типизации, используются для расчета здоровья оборудования и услуг. При этом определяется не только состояние устройства, по которому зафиксировано событие, но и оценивается влияние на связанные объекты и сервисы.

Например, по серверу создано событие типа «Предупреждение». Это значит, что устройство, вероятнее всего, скоро отключится. В системе автоматически устанавливается состояние здоровья «Предупреждение». На сервере развернута виртуальная машина, по которой никаких критичных сообщений не поступало. Но при определении здоровья учитываются взаимосвязи, поэтому состояние виртуальной машины определяется как «Потенциально недоступное». Такой же статус получит информационная система, которая развернута на виртуальной машине.

Информацию об уровне здоровья и взаимосвязях одного оборудования с другим удобно отслеживать с помощью ресурсно-сервисной модели услуг. Это схема, которая отображает актуальный статус здоровья оборудования и сервисов и помогает оценивать влияние событий на инфраструктуру.

*Ресурсно-сервисная модель в Naumen BSM отображает взаимосвязи между разными устройствами и сервисами*

Для оперативного контроля сервисов удобно использовать дашборд «Здоровье информационных систем». Он помогает быстро понять, доступен определенный сервис или нет. Состав информационной панели настраивается пользователем: именно он определяет, что нужно отображать на экране. С дашборда можно перейти на ресурсно-сервисную модель конкретного сервиса и оценить, что влияет на его состояние.

*Специальный дашборд в Naumen BSM помогает контролировать здоровье разных сервисов*

Как создаются инциденты

После типизации события оцениваются с помощью правил корреляции. С их помощью уточняется ответ на вопрос: нужно ли регистрировать инцидент? При этом учитывается тип, ситуация, связанная услуга. Например, может быть автоматически создан инцидент по событию с типом «Отклонение», если оно затрагивает критически важную бизнес-услугу.

Также правила корреляции дают возможность предотвращать «шторм тревог» — создание множества инцидентов по одной и той же аварии. Допустим, две системы инфраструктурного мониторинга зафиксировали сбой на сервере и отправили сообщения в зонтичный мониторинг. В Naumen BSM регистрируются два события с типом «Отклонение» по одной и той же конфигурационной единице. И по каждому из них нужно регистрировать инцидент.

Правила корреляции позволяют избежать регистрации нескольких одинаковых инцидентов. Инцидент регистрируется только по первому событию за период, а информация о последующих добавляется в комментарий к инциденту.

*В Naumen BSM инцидент регистрируется по первому аварийному событию за определенный период*

К выводам

Управление событиями в зонтичном мониторинге позволяет автоматически рассчитывать текущее состояние здоровья оборудования и услуг, а также регистрировать инциденты. За счет этого проще отслеживать аварийные ситуации в ИТ-инфраструктуре и вовремя на них реагировать.

Мониторинг Naumen BSM

События в зонтичном мониторинге: как это работает

Какие уровни зонтичного мониторинга бывают

Зачем управлять событиями в мониторинге

Как обрабатываются события

Как события влияют на оценку здоровья оборудования и услуг

Как создаются инциденты

К выводам

Анна Сергеенко

Недавние публикации

Когда посчитать ИТ-активы недостаточно: превращаем разрозненные данные в единую систему управления

Отказоустойчивая инфраструктура на технологиях NAUMEN: обзор отраслевых проектов

Как подключить внешнюю систему мониторинга к Naumen BSM

Как будет развиваться проектный менеджмент в 2026 году

15 полезных функций Naumen BSM

Теги

События в зонтичном мониторинге: как это работает

Какие уровни зонтичного мониторинга бывают

Зачем управлять событиями в мониторинге

Как обрабатываются события

Как события влияют на оценку здоровья оборудования и услуг

Как создаются инциденты

К выводам

Анна Сергеенко

Недавние публикации

Когда посчитать ИТ-активы недостаточно: превращаем разрозненные данные в единую систему управления

Отказоустойчивая инфраструктура на технологиях NAUMEN: обзор отраслевых проектов

Как подключить внешнюю систему мониторинга к Naumen BSM

Как будет развиваться проектный менеджмент в 2026 году

15 полезных функций Naumen BSM

Теги

Вам также могут быть интересны

Как подключить внешнюю систему мониторинга к Naumen BSM

15 полезных функций Naumen BSM

5 трендов инфраструктурного мониторинга 2026 года