Искусственный интеллект в мониторинге ИТ-инфраструктуры: что умеет и куда развивается
Рассказываем о возможностях искусственного интеллекта, которые все чаще подключают к задачам мониторинга
Какие задачи уже решаются интеллектуальным мониторингом
Суперспособность зонтичных систем мониторинга — аккумулировать, структурировать и анализировать данные о работе различных объектов
1. Прогнозирование поведения метрик
В чем суть. Модели прогнозирования умеют предсказывать значения метрик на основании исторических данных, с учетом тренда и сезонности. Для них устанавливается горизонт прогнозирования. Остальные параметры: частота обновления метрики и допустимые колебания — вычисляются автоматически.
ИИ может предсказать поведение метрики на заданный период. Точность прогноза зависит от объема исторических данных и установленного горизонта: чем он больше, тем точность ниже. Зачастую горизонт настраивается в зависимости от особенностей устройства и задач мониторинга.
Для прогнозов можно настраивать такие же механизмы реагирования, как и для реальных значений метрик. Например, когда система предскажет, что в горизонте 1 час метрика достигнет порогового значения, сработает триггер, и ответственные специалисты получат оповещение.
Что дает. Благодаря прогнозам ИИ увеличиваются шансы предотвратить, к примеру, отказ оборудования. В итоге риск сбоев и простоев
Модель в Naumen BSM умеет прогнозировать поведение метрики на установленный период, а затем обновлять прогноз по мере получения и обработки новых данных
2. Обнаружение аномальных значений метрик
В чем суть. В работающей инфраструктуре значения метрик оборудования постоянно меняются. Модели детектирования аномалий умеют автоматически определять коридор типичных значений — верхнюю и нижнюю границы нормы. А также выявлять значения, которые выходят за эти рамки. Такие отклонения называются выбросами или аномалиями.
Когда фиксируется выброс, ИИ берет на себя контроль дальнейшего поведения метрики. Если оборудование оказалось перегружено на короткое время, а потом нормальная работа полностью восстанавливается, то отклонение игнорируется. Выброс считается случайным, не требующим немедленных действий.
Несколько аномалий подряд будут говорить о высокой вероятности сбоя в ближайшем будущем, например, из-за перегрузки техники. В таком случае ИИ автоматически сформирует инцидент, и система отправит оповещение специалистам.
Что дает. Система через
Кроме того, администраторы мониторинга перестанут тратить время на разбор и анализ локальных сбоев, которые не оказывают критичного влияния на работу оборудования. При этом они своевременно будут узнавать об отклонениях и сфокусируются на предупреждении аварий.
Модель в Naumen BSM фиксирует аномалию тогда, когда значения метрики вышли за пределы нормы несколько раз подряд за определенный промежуток времени
В чем еще проявит себя ИИ: перспективные направления для мониторинга инфраструктуры
Отслеживая тренды, становится понятно, как будет применяться ИИ в будущем. Например, сейчас реализуются эксперименты по использованию ИИ на стыке управления мониторингом и другими практиками: информационной безопасности, управления мощностями, управления изменениями.
1. Планирование ИТ-ресурсов
В чем суть. ИИ можно подключить к анализу исторических данных, связанных с потреблением мощностей. А затем рассчитать, что необходимо для запуска новых или масштабирования существующих
Что дает. Модели опираются на фактические данные по использованию сервисов. Поэтому они учитывают особенности конкретного бизнеса и специфику инфраструктуры. ИИ точнее рассчитает ресурсы, необходимые для предоставления сервисов и услуг. В конечном счете это позволит повысить эффективность бюджетирования затрат на ИТ.
Модель прогнозирует мощности под задачи бизнеса, сопоставляет с имеющимися и просчитывает необходимые изменения
2. Выявление узких мест в работе инфраструктуры
В чем суть. Даже правильный расчет необходимых мощностей при проектировании инфраструктуры не гарантирует, что удастся избежать ошибок на практике.
На ИИ можно отдать анализ данных потребления мощностей оборудования, чтобы выявлять точки оптимизации. Например,получится обнаружить, что одно устройство часто работает на пределе, а ресурсы аналогичной техники используются по минимуму.
Что дает. Благодаря ИИ узкие места в
На основе метрик модель проанализирует загрузку оборудования и сообщит о неэффективности
3. Поиск первопричин инцидентов
В чем суть. Проактивный подход не исключает вероятности возникновения инцидентов. Но можно сократить время на их расследование. В этом контексте одна из основных задач — быстрее обнаружить первопричину сбоя.
Зачастую из-за различных аварий на инфраструктуре становятся недоступными связанные устройства и сервисы. Зонтичные системы помогают точно определить, авария на каком оборудовании послужила источником. Для этого используются
Однако возможности таких схем ограниченны. Например, на РСМ нельзя отобразить неочевидные взаимосвязи. Допустим, в компании имеется большое количество объектов
Что дает. Быстрее выявляются первопричины сбоев даже в сложной инфраструктуре с неочевидными взаимосвязями между объектами. А значит, снижается время простоев.
В нашем примере показатель 20% свободной памяти на сервере — некритичный показатель. Но для корректной работы базы данных нужно не менее 40%. Связь неочевидна, но модель ИИ сможет ее найти
4. Перенастройка триггеров
В чем суть. В системе мониторинга настраиваются триггеры — пороговые значения метрики, при достижении которых запускаются определенные сценарии реагирования. Например, когда свободная память сервера снижается до указанного уровня, автоматически регистрируется инцидент и отправляется уведомление ответственным специалистам.
Настройка триггеров — трудоемкий, но важный процесс, который позволяет избежать падения сервисов. Обычно актуализация настроек требуется при изменении
Для решения подобной задачи можно обучить интеллектуальную систему анализировать историю изменения значений метрик, сопоставлять их с настройками триггеров и контролировать актуальность. При необходимости ИИ сможет создавать рекомендации для изменения пороговых значений триггера или даже делать это самостоятельно.
Также модель может предложить настроить триггер, который не учитывается в текущем мониторинге. Например, если выявит взаимосвязь между изменением значений определенной метрики и возникновением сбоя.
Что дает. Технология автоматизирует рутинные операции по настройке триггеров. Благодаря чему высвобождается время
На основе исторических данных модель способна анализировать актуальность триггерных значений и предлагать варианты оптимизации
Главное
- Применение искусственного интеллекта в зонтичном мониторинге помогает обрабатывать огромные массивы данных, в которых скрыта ценная информация о состоянии
ИТ-инфраструктуры . - Сейчас в практике мониторинга ИИ чаще используется для выявления закономерностей и прогнозирования поведения метрик. Так, технология уже сейчас дает возможность снизить длительность простоев сервисов и повысить качество работы инфраструктуры.
- Развитие новых практик применения ИИ со временем поможет корректнее планировать
ИТ-ресурсы под задачи бизнеса и тем самым повышать точность бюджетирования затрат на ИТ.