Вы успешно подписались на блог Naumen
Статьи доступны к чтению
Добро пожаловать! Регистрация прошла успешно.
Отлично! Ваш аккаунт активирован, контент доступен.
Success! Your billing info is updated.
Billing info update failed.
15 полезных функций Naumen BSM

15 полезных функций Naumen BSM

10 минут чтения

В инфраструктуре компании почти всегда работает несколько систем мониторинга. Каждая отвечает за свой участок. К примеру, первая собирает метрики по серверной инфраструктуре, вторая — по сетевому оборудованию, третья — по другим сегментам.

Задача Naumen Business Service Monitoring (BSM) — объединить эти данные. В этом обзоре разберем 15 возможностей продукта, которые помогают получить полную картину инфраструктуры, прогнозировать сбои и эффективно управлять бизнес-сервисами.


    Содержание


    Интеграции и сбор данных
    Интеграция с внешним ПО
    Сбор метрик и событий из разных источников
    Приоритизация источников

    Обработка событий
    Фильтрация и обогащение данных
    Корреляция событий
    Обработка событий кластера

    Управление инцидентами мониторинга
    Регистрация инцидентов мониторинга
    Расчет здоровья сервисов

    Дополнительные инструменты
    Ресурсно-сервисная модель
    Анализ причин недоступности

    Визуализация и аналитика
    Дашборды «из коробки»
    Настройка персональных панелей
    Анализ метрик

    Предиктивная аналитика и ML
    Прогнозирование метрик
    Обработка событий прогнозов



Интеграции и сбор данных

Чтобы система зонтичного мониторинга работала корректно, ей нужны полные и непротиворечивые данные из разных источников. Рассмотрим, как Naumen BSM собирает метрики и события в единую модель и управляет их качеством.


Интеграция с внешним ПО

В Naumen BSM предусмотрен широкий набор инструментов интеграции — от готовых коннекторов до гибких способов подключения к системам любых типов.

В коробочной поставке доступны готовые коннекторы к популярным платформам мониторинга и управления инфраструктурой: Zabbix, Prometheus, vCenter, Naumen Network Manager и другим. Они автоматически разворачивают необходимые объекты, получают сырые данные и сразу начинают с ними работать — без долгой ручной настройки или сложных интеграционных работ. Список коннекторов постоянно расширяется.

Помимо готовых решений, Naumen BSM предлагает разные способы подключения к внешним источникам. На практике чаще всего используют:

  1. API-интеграции — подходят для современных систем и дают быстрый доступ к данным.
  2. Подключение напрямую к базе данных — гибкий способ, если клиент может предоставить к ней доступ.
  3. Получение данных через файлы — когда прямое подключение невозможно, но внешняя система умеет формировать выгрузки.
  4. Получение данных через почтовый сервис — удобный вариант, если в подключаемой системе реализован такой механизм.

Благодаря такому набору инструментов Naumen BSM вписывается в любой ИТ-ландшафт, включая набирающие популярность российские системы виртуализации и решения по информационной безопасности.


Сбор метрик и событий из разных источников

Чтобы объединить данные, Naumen BSM связывает информацию из внешних систем мониторинга с одной конфигурационной единицей (КЕ) ИТ-инфраструктуры. Эта механика позволяет:

  • получить полное представление о состоянии КЕ на всех уровнях;
  • аккумулировать все метрики и события, относящиеся к одной сущности;
  • исключить ситуацию, когда один и тот же объект учитывается в мониторинге несколько раз.

В дальнейшем эта информация используется для расчетов состояния сервисов, визуализации, аналитики и автоматизации реакции.


Приоритизация источников

Когда Naumen BSM получает информацию об одном и том же объекте из разных внешних систем, важно избежать конфликтов и дублирования данных. Это возможно благодаря функции приоритизации атрибутов.

Это работает так. Для каждого подключенного источника и каждого атрибута задается свой приоритет. Система сравнивает эти параметры и выбирает информацию от самого значимого из них.

Приоритизация источников дает возможность управлять точностью сведений, определять, какие данные попадут в CMDB. Например, серийный номер или модель оборудования можно получать из системы дискаверинга, названия — из ERP-системы, а метрики нагрузки — из корневого мониторинга.

Если приоритеты необходимо пересобрать, Naumen BSM автоматически поменяет правила заполнения. Атрибуты с более высоким весом система возьмет из нужного источника, даже если остальные данные приходят из другого.


Обработка событий

Когда статус события определен, начинается этап обработки. Рассмотрим, как он проходит.


Фильтрация и обогащение данных

Чтобы вычленить из многочисленных данных и событий полезные, система применяет к ним фильтрацию и обогащение.

Фильтрация позволяет не рассматривать лишние и нерелевантные объекты, например, второстепенные характеристики, информационные сообщения или устройства без изменений. Такая функция снижает нагрузку на ИТ-службу и помогает сразу сосредоточиться только на значимых событиях.

Обогащение приводит оставшиеся данные в осмысленный вид. Метрики и события привязываются к конфигурационным единицам, сопоставляются с бизнес‑сервисами, учитываются зависимости и приоритеты. Благодаря этому команда получает не просто поток алертов, а полноценную картину состояния инфраструктуры и сервисов.

Комбинация фильтрации и обогащения обеспечивает Naumen BSM прозрачность и точность мониторинга, позволяя принимать решения на основе данных.


Корреляция событий

Когда возникает сбой, системы корневого мониторинга могут продолжать присылать аварийные события до тех пор, пока инцидент не решится. Если авария затронула связанные элементы, количество таких уведомлений возрастает в разы.

Чтобы этого не происходило, в Naumen BSM есть правила корреляции. Они анализируют ситуацию, тип события, услугу и решают, нужно ли создавать инцидент или достаточно зафиксировать состояние. Система создает только первый инцидент, а последующие связанные события группирует вокруг него. Интервал связывания настраивается. Например, от 15 минут до нескольких часов или суток.

Если в течение этого интервала оборудование не восстановилось, система зарегистрирует новый инцидент по новому событию и  сгруппирует с ним последующие. При закрытии инцидента автоматически закроются и все связанные события.

Также правила корреляции учитывают важность услуги: по критичным сервисам система поднимет инцидент сразу. Кроме того, они позволяют автоматически назначать сроки устранения инцидентов с учетом SLA.


Обработка событий кластера

В ИТ-инфраструктуре кластеры реализованы по-разному. Правила кластеризации для обработки событий позволяют учитывать контекст и исключают ситуации, когда сервис считается вышедшим из строя, например, из-за отказа одной ноды.

Ресурсно-сервисная модель (РСМ) показывает, какие ноды объединены в кластер и какие услуги они поддерживают.

ИТ-система поддерживает два основных типа кластеров:

  1. Active—Passive. В работе участвует одна активная нода. Если она выходит из строя, кластер считается неработоспособным.
  2. Active—Active. Нагрузка распределена между несколькими нодами. Кластер продолжает работу, пока число отказавших нод не превысит заданный порог. Это определяется атрибутом «Предел отказоустойчивости».

Если одна из нод выходит из строя, система проверяет настройки кластеризации и решает, должен ли измениться статус кластера и, как следствие, состояние услуги.


Управление инцидентами мониторинга

Когда система обнаруживает значимое (критичное) событие, она реагирует на событие по определенным правилам и автоматически отправляет заявку с необходимым контекстом в соответствующее ИТ-решение, например, в систему класса Service Desk. Рассмотрим, как устроен этот процесс и какими будут дальнейшие шаги.


Регистрация инцидентов мониторинга

Naumen BSM интегрируется с экосистемой инфраструктурных продуктов Naumen, включая Naumen Service Desk. Возможна интеграция с продуктами этого класса от других вендоров. Описанная ниже работа с заявкой будет аналогичной.

Если событие признается критичным, решение автоматически создает карточку инцидента, где указывает:

  • исходное событие и его тип;
  • затронутую конфигурационную единицу;
  • описание и вложенные параметры.

Система сразу назначает приоритет, ответственного и сроки решения проблемы. Если событие совпадает с плановой профилактической работой (ППР), событие ставится в статус «Отложено» и связывается с нужным запросом, а состояние оборудования остается без изменений.

Благодаря автоматизации команда ИТ-службы получает структурированную информацию и контекст по каждому инциденту мониторинга. Это ускоряет реагирование и упрощает управление событиями.


Расчет здоровья сервисов

Зонтичный мониторинг позволяет оценивать состояние бизнес-сервисов и ключевых компонентов ИТ-инфраструктуры в реальном времени. Система рассчитывает здоровье сервисов на основе поступающих событий и метрик, учитывая критичность, взаимозависимости и правила кластеризации.

На дашбордах визуально отображается статус критичных систем и сервисов с понятными индикаторами. Зеленый цвет — нормальная работа, желтый и серый  — возможная недоступность, красный — критическое состояние. Это помогает команде ИТ быстро увидеть проблемные участки и приоритетно реагировать на сбои.

При этом возможности системы гибко настраиваются под особенности инфраструктуры. Например, можно учитывать не только само оборудование, но и зависимости между сервисами.


Дополнительные инструменты

Чтобы принимать решения и видеть общее состояние ИТ-инфраструктуры, будут полезны и другие инструменты. Например, один из них покажет связи между бизнес-сервисами, а другой рассчитает их доступность.


Ресурсно-сервисная модель

Каждая конфигурационная единица и сервис отображаются как узлы на РСМ. Этот инструмент позволяет видеть, какие устройства и приложения поддерживают конкретные бизнес-функции.

При обработке событий система учитывает связи между сервисами и оборудованием, что помогает понимать, как отказ данного компонента повлияет на разные сервисы. РСМ показывает прямое влияние каждого элемента, а также учитывает кластерные и резервные решения, чтобы корректно оценивать доступность сервисов даже при отказе части инфраструктуры.


Анализ причин недоступности

Naumen BSM оценивает доступность бизнес-сервисов, анализируя состояние всех связанных компонентов: серверов, сетевого оборудования, приложений и виртуальных сервисов.

Так получается вычислять критические элементы, которые могут стать причиной недоступности, на основе следующих факторов:

  • статус компонентов;
  • характер и степень влияния на сервисы;
  • тип кластера (Active—Active или Active—Passive) и настройки отказоустойчивости.

На ресурсно-сервисной модели проблемные компоненты подсвечиваются красным или желтым, что упрощает поиск первопричины проблемы.


Визуализация и аналитика

Для структуризации, обработки и представления информации в Naumen BSM представлены визуальные панели. Они легко настраиваются и кастомизируются. Рассмотрим, что и как на них можно вывести.


Дашборды «из коробки»

«Коробочная» версия Naumen BSM содержит готовый набор дашбордов, которые помогают быстро оценить состояние инфраструктуры и сервисов без необходимости вчитываться в карточки отдельных объектов.

Дашборд здоровья инфраструктуры отражает текущее состояние оборудования. Преднастроенные виджеты на дашборде текущего состояния визуализируют:

  • аналитику событий по услугам — какие события и по каким сервисам происходили;
  • список проблемных услуг — выделяет сервисы с наибольшим количеством негативных событий;
  • динамику событий разных типов за выбранные периоды;
  • инциденты, созданные на основе прогнозных моделей.

Каждый дашборд можно изменить под задачи компании: скорректировать фильтры, поменять логику отображения или добавить дополнительные показатели.


Настройка персональных панелей

Собирать индивидуальные дашборды можно прямо в интерфейсе Naumen BSM, без разработки и привлечения инженеров. Для этого достаточно выбрать тип визуализации, задать объект отображения, настроить фильтры и группировки. Затем подобрать формат представления данных. Процесс занимает считанные минуты.


Анализ метрик

В продукте представлено три типа инструментов аналитики:

  1. Триггеры зонтичного мониторинга — сравнивают значения метрик с порогами, анализируют одновременное поведение метрик из нескольких систем и фиксируют отклонения от заданных условий.
  2. Активные метрики — скриптовые вычисления, которые позволяют собирать сложные показатели и выводить их на графики или виджеты.
  3. Встроенное прогнозирование — предсказывает значения метрик и заранее предупреждает о рисках.

Прошедшие через анализ метрики автоматически могут вызывать последующие действия: регистрацию инцидентов и оповещения. Еще их можно посмотреть на специальных графиках, где видно фактические и прогнозируемые значения, точки срабатывания триггеров и связанные события. Наглядно представленная аналитика позволяет быстро замечать отклонения и реагировать на них до того, как показатели перейдут в критическую зону.


Предиктивная аналитика и ML

В продукт встроены ИИ-инструменты, которые помогают анализировать данные и предотвращать проблемы в инфраструктуре. Рассмотрим, как это работает.


Прогнозирование метрик

Доступна фиксация не только текущего состояния инфраструктуры, но и возможных рисков. Для этого анализируются исторические данные, тренды метрик и используются ML-модели.

Анализ метрик осуществляется по двум основным схемам:

  1. Метрики → триггеры → события. Триггеры отслеживают текущие значения метрик и формируют событие, когда показатель выходит за допустимые рамки.
  2. Метрики → модель прогнозирования → триггеры → события. ML-модель с автоматически подобранными параметрами строит прогноз на выбранный горизонт и регулярно обновляет предсказание. Если ожидаемое значение метрики приближается к критическому порогу, триггер создает событие еще до фактического сбоя.

Прогнозные события обрабатываются аналогично другим. Для визуализации доступны дашборды по событиям, а также отдельные графики, где отображаются фактические значения метрик, прогнозные кривые и точки срабатывания триггеров.


Обработка событий прогнозов

Полученные на основе предиктивной аналитики и анализа метрик встраиваются в общий поток обработки событий как обычные алерты. Это значит, что система рассматривает прогнозируемые аномалии наравне с реальными сбоями — с возможностью автоматической генерации инцидентов.

ИИ позволяет обнаруживать ранние признаки сбоя — например, рост загрузки, ухудшение метрик, нестабильность — и реагировать до возникновения в реальности. Это помогает предоставлять сервисы с минимальными перерывами и снижает риск аварий.

К выводам

Naumen BSM обеспечивает контроль всей инфраструктуры, объединяя данные из различных систем, помогает в фильтрации и обогащении событий, расчете состояния сервисов и автоматическом создании инцидентов. Гибкие дашборды, аналитика по метрикам и возможности предиктивного анализа позволяют ИТ-команде быстро реагировать на аварии и прогнозировать потенциальные сбои.

Хотите оценить преимущества автоматизированного мониторинга бизнес-сервисов? Оставьте заявку, и мы проведем показ системы.


Наверх ↑