Вы успешно подписались на блог Naumen
Статьи доступны к чтению
Добро пожаловать! Регистрация прошла успешно.
Отлично! Ваш аккаунт активирован, контент доступен.
Success! Your billing info is updated.
Billing info update failed.
ИИ-аналитика в корневом мониторинге: ускоряем диагностику сбоя и прогнозируем события в инфраструктуре

ИИ-аналитика в корневом мониторинге: ускоряем диагностику сбоя и прогнозируем события в инфраструктуре

4 минут чтения

Аналитические инструменты в Naumen Network Manager помогают специалистам ориентироваться в огромном потоке данных, быстро находить первопричины неполадок и работать с ИТ-инфраструктурой проактивно. В статье рассмотрим, как алгоритмы машинного обучения применяются в корневом мониторинге для обработки событий и прогнозирования сбоев.

Интеллектуальная обработка данных ускоряет диагностику и устранение неполадок

Инженерам, которые занимаются диагностикой сбоя, важно отличать первопричину от последствий. Это бывает непросто, когда данных поступает слишком много.

Naumen Network Manager ежеминутно обрабатывает большое количество событий, фиксируют малейшие изменения в состоянии каждого объекта ИТ-инфраструктуры. Как специалистам не «утонуть» в таком объеме данных? Помогает ML-модель Root Cause Analysis (RCA), которая умеет распознавать смежные устройства и выделять то, на котором изначально случилась авария.

Представим, что система показывает 100 событий, отмеченных как «Авария» или «Недоступен». Часть из них связана с объектами, на которых произошел сбой, но большинство — это затронутые устройства. Применение RCA «спрячет» такие объекты из общего списка и позволит сосредоточиться на устранении первопричины. Как только авария устранена, специалист откроет карточку основного объекта и посмотрит состояние затронутого оборудования. Это позволит убедиться, что работоспособность полностью восстановлена, либо принять дополнительные меры.

ML-обработка событий ускоряет и упрощает работу ИТ-специалистов: дает им возможность быстрее устранить неполадку и восстановить доступность затронутого сервиса, а затем переключиться на диагностику более сложных проблем.

Если у компании за время мониторинга накопилось достаточно исторических данных, их можно использовать для углубленной ИИ-аналитики и составления статистических прогнозов.

Предиктивная аналитика прогнозирует колебания метрик и определяет аномалии

Аналитические инструменты в Naumen Network Manager не только работают с фактическими метриками, но и позволяют прогнозировать значения.

Предиктивная аналитика на основе ML-моделей решает две задачи:

  • прогнозирование значений метрик;
  • выявление аномальных показателей.

Прогнозирование значений осуществляется с помощью моделей ARIMA и RNN (Recurrent Neural Networks), которые обучаются на исторических данных, зафиксированных за весь период мониторинга. Это позволяет выявить динамику колебаний и рассчитать, как метрика изменится в ближайшем будущем. Чем больше собрано данных, тем точнее прогноз.

Рассчитать и спрогнозировать можно колебания любой измеряемой метрики: физические показатели (температура конкретного устройства или воздуха в ЦОД), ресурсы на сервере (CPU, RAM, HDD), нагруженность системы.

Например, приложение способно поддерживать одновременную работу 1000 пользователей. Обычно этот показатель находится в районе отметки 500. Но в какой-то день наблюдается рост количества залогинившихся пользователей. ML-модель высчитывает, что если такая тенденция сохранится, то через час критическая отметка будет превышена. Система уведомляет специалистов об этом. Далее они принимают меры, чтобы предотвратить сбой приложения.

Выявление аномальных показателей — это процесс, при котором алгоритм на основе собранных данных определяет автоматически, какой диапазон значений в пределах нормы, а какой нет. В корневом мониторинге Naumen Network Manager используются несколько моделей детектирования аномалий. Например, Outliers и Moving Average. Они основаны на математических алгоритмах, которые подходят для анализа метрик инфраструктуры.

Представим, что ИТ-отделу необходимо выяснить, какие значения метрики «Температура в ЦОД» считать типичными и в пределах нормы. Все ML-модели обучаются на массиве данных, собранных в процессе мониторинга. Допустим, Outliers обнаружила больше всего аномальных точек. Значит, ее будут использовать при создании факта: «Если спрогнозированное значение средней температуры превысит норму за прошлый месяц, необходимо создать в системе аварию уровня „Предупреждение“».

Обученная модель помогает инженерам намного быстрее провести углубленный анализ данных и обнаружить потенциальную аварийность на том или ином участке ИТ-инфраструктуры. Использование предиктивной аналитики означает переход от реактивного устранения инцидентов к проактивному: можно разобраться с неполадками до того, как будут затронуты критически важные системы и сервисы.

К выводам

Технологии машинного обучения в корневом мониторинге поднимают аналитику данных на новый уровень. Интеллектуальная обработка событий с помощью Naumen Network Manager позволяет быстро отделить первопричину аварии от связанных с ней неполадок. Инструменты предиктивной аналитики помогают специалистам узнавать о потенциальных сбоях и действовать заранее.

Хотите узнать больше о том, как прогнозировать сбои в инфраструктуре? Заинтересовали возможности корневого мониторинга? Оставьте заявку, и специалисты Naumen ответят на все ваши вопросы.