Вы успешно подписались на блог Naumen
Статьи доступны к чтению
Добро пожаловать! Регистрация прошла успешно.
Отлично! Ваш аккаунт активирован, контент доступен.
Success! Your billing info is updated.
Billing info update failed.
События в зонтичном мониторинге: как это работает

События в зонтичном мониторинге: как это работает

4 минут чтения

Перегрузки или отключения оборудования напрямую влияют на работу связанных ИТ-сервисов. Зонтичный мониторинг помогает автоматически оценивать критичность происшествий в инфраструктуре, а при необходимости сразу регистрировать инциденты. В статье расскажем, как работает управление событиями в Naumen BSM.

Какие уровни зонтичного мониторинга бывают

Naumen Business Service Monitoring подключается к внешним источникам, например, системам корневого мониторинга, и агрегирует различные данные. Процессы сбора и обработки данных каждого типа выделяются в отдельные уровни мониторинга:

  • автоинвентаризация;
  • управление событиями;
  • мониторинг метрик.

Каждый уровень отвечает за свою задачу, а вместе они помогают получить комплексный срез состояния инфраструктуры. В результате ИТ-служба получает возможность действовать проактивно и минимизировать количество сбоев.

Уровень мониторинга Тип данныхЦенность
Дискаверинг ИТ-активов Объекты — оборудование и виртуальные средыСбор инвентаризационных данных

Быстрое наполнение CMDB

Полная и достоверная информация об объектах учета
Управление событиями События, происходящие с объектами Автоматическая регистрация инцидентов

Предотвращение «шторма тревог» — регистрации инцидентов об одной и той же поломке

Расчет здоровья объектов инфраструктуры, систем, услуг
Мониторинг метрик Метрики состояния объектов Автоматическое вычисление сложных показателей

Различные сценарии реагирования на нетиповые значения

Визуализация данных в удобном для анализа виде

Прогнозирование значений и выявление аномалий с помощью ML-моделей

Рассмотрим, какие задачи выполняются в рамках второго уровня.

Зачем управлять событиями в мониторинге

Системы инфраструктурного мониторинга собирают информацию о работоспособности ИТ-ландшафта компании. Когда устройство отключается, перегружено, работает нестабильно или, наоборот, восстановилось, системы генерируют специальные сообщения. В них содержится информация, что именно происходит. При классическом мониторинге оценкой «сырых» данных занимаются разные сотрудники.

Например, администратор Zabbix изучает сообщения только от этого ПО. Администратор Naumen Network Manager — от соответствующей системы. В работающей инфраструктуре зачастую генерируется множество сообщений, поэтому проводить анализ вручную сложно. Кроме того, на основе разрозненных данных практически невозможно составить комплексное представление о происходящем.

Зонтичный мониторинг позволяет автоматизировать этот процесс: обработать сообщения, оценить здоровье оборудования и сервисов, а при необходимости — создать инцидент.

Как обрабатываются события

В Naumen BSM используются правила типизации. Они помогают получить ответ на вопрос: что значит для инфраструктуры конкретное событие и как его оценивать?

Внешние источники передают в систему сообщения с десятками разных статусов. По каждому сообщению регистрируется событие. Правила типизации позволяют определить тип каждого. В стандартной версии Naumen BSM это «Отклонение», «Восстановление», «Информация» и «Предупреждение».

На этапе работы с правилом типизации также может быть определена ситуация, исходя из той информации, которая пришла из внешнего источника.

Как события влияют на оценку здоровья оборудования и услуг

Данные, выявленные при типизации, используются для расчета здоровья оборудования и услуг. При этом определяется не только состояние устройства, по которому зафиксировано событие, но и оценивается влияние на связанные объекты и сервисы.

Например, по серверу создано событие типа «Предупреждение». Это значит, что устройство, вероятнее всего, скоро отключится. В системе автоматически устанавливается состояние здоровья «Предупреждение». На сервере развернута виртуальная машина, по которой никаких критичных сообщений не поступало. Но при определении здоровья учитываются взаимосвязи, поэтому состояние виртуальной машины определяется как «Потенциально недоступное». Такой же статус получит информационная система, которая развернута на виртуальной машине.

Информацию об уровне здоровья и взаимосвязях одного оборудования с другим удобно отслеживать с помощью ресурсно-сервисной модели услуг. Это схема, которая отображает актуальный статус здоровья оборудования и сервисов и помогает оценивать влияние событий на инфраструктуру.

Для оперативного контроля сервисов удобно использовать дашборд «Здоровье информационных систем». Он помогает быстро понять, доступен определенный сервис или нет. Состав информационной панели настраивается пользователем: именно он определяет, что нужно отображать на экране. С дашборда можно перейти на ресурсно-сервисную модель конкретного сервиса и оценить, что влияет на его состояние.

Как создаются инциденты

После типизации события оцениваются с помощью правил корреляции. С их помощью уточняется ответ на вопрос: нужно ли регистрировать инцидент? При этом учитывается тип, ситуация, связанная услуга. Например, может быть автоматически создан инцидент по событию с типом «Отклонение», если оно затрагивает критически важную бизнес-услугу.

Также правила корреляции дают возможность предотвращать «шторм тревог» — создание множества инцидентов по одной и той же аварии. Допустим, две системы инфраструктурного мониторинга зафиксировали сбой на сервере и отправили сообщения в зонтичный мониторинг. В Naumen BSM регистрируются два события с типом «Отклонение» по одной и той же конфигурационной единице. И по каждому из них нужно регистрировать инцидент.

Правила корреляции позволяют избежать регистрации нескольких одинаковых инцидентов. Инцидент регистрируется только по первому событию за период, а информация о последующих добавляется в комментарий к инциденту.

К выводам

Управление событиями в зонтичном мониторинге позволяет автоматически рассчитывать текущее состояние здоровья оборудования и услуг, а также регистрировать инциденты. За счет этого проще отслеживать аварийные ситуации в ИТ-инфраструктуре и вовремя на них реагировать.