Вы успешно подписались на блог Naumen
Статьи доступны к чтению
Добро пожаловать! Регистрация прошла успешно.
Отлично! Ваш аккаунт активирован, контент доступен.
Success! Your billing info is updated.
Billing info update failed.
Искусственный интеллект в мониторинге ИТ-инфраструктуры: что умеет и куда развивается

Искусственный интеллект в мониторинге ИТ-инфраструктуры: что умеет и куда развивается

6 минут чтения

Рассказываем о возможностях искусственного интеллекта, которые все чаще подключают к задачам мониторинга ИТ-инфраструктуры. Какие инструменты ИИ уже базис для систем мониторинга, а что пока перспективное направление для применения технологии — ответы в статье.

Какие задачи уже решаются интеллектуальным мониторингом

Суперспособность зонтичных систем мониторинга — аккумулировать, структурировать и анализировать данные о работе различных объектов ИТ-инфраструктуры. Подобная информация может поступать из внешних источников, например, из систем корневого мониторинга. С быстрой обработкой больших объемов данных справится искусственный интеллект. Так, одним из привычных инструментов в зонтичных системах становится применение моделей машинного обучения.

1. Прогнозирование поведения метрик

В чем суть. Модели прогнозирования умеют предсказывать значения метрик на основании исторических данных, с учетом тренда и сезонности. Для них устанавливается горизонт прогнозирования. Остальные параметры: частота обновления метрики и допустимые колебания — вычисляются автоматически.

ИИ может предсказать поведение метрики на заданный период. Точность прогноза зависит от объема исторических данных и установленного горизонта: чем он больше, тем точность ниже. Зачастую горизонт настраивается в зависимости от особенностей устройства и задач мониторинга.

Для прогнозов можно настраивать такие же механизмы реагирования, как и для реальных значений метрик. Например, когда система предскажет, что в горизонте 1 час метрика достигнет порогового значения, сработает триггер, и ответственные специалисты получат оповещение.

Что дает. Благодаря прогнозам ИИ увеличиваются шансы предотвратить, к примеру, отказ оборудования. В итоге риск сбоев и простоев бизнес-сервисов из-за вышедшей из строя техники сводится к минимуму.

2. Обнаружение аномальных значений метрик

В чем суть. В работающей инфраструктуре значения метрик оборудования постоянно меняются. Модели детектирования аномалий умеют автоматически определять коридор типичных значений — верхнюю и нижнюю границы нормы. А также выявлять значения, которые выходят за эти рамки. Такие отклонения называются выбросами или аномалиями.

Когда фиксируется выброс, ИИ берет на себя контроль дальнейшего поведения метрики. Если оборудование оказалось перегружено на короткое время, а потом нормальная работа полностью восстанавливается, то отклонение игнорируется. Выброс считается случайным, не требующим немедленных действий.

Несколько аномалий подряд будут говорить о высокой вероятности сбоя в ближайшем будущем, например, из-за перегрузки техники. В таком случае ИИ автоматически сформирует инцидент, и система отправит оповещение специалистам.

Что дает. Система через ИИ-агента будет выявлять отклонения до того, как критические события наступят. Это позволит ИТ-подразделению разработать алгоритм действий, чтобы не допустить негативного сценария. Также автоматизация с ИИ поможет уйти от мониторинга порога в алертах вручную, в т.ч. выявлять «слабые» сигналы, когда метрик много и не на все из них настроены пороги оповещений.

Кроме того, администраторы мониторинга перестанут тратить время на разбор и анализ локальных сбоев, которые не оказывают критичного влияния на работу оборудования. При этом они своевременно будут узнавать об отклонениях и сфокусируются на предупреждении аварий.

В чем еще проявит себя ИИ: перспективные направления для мониторинга инфраструктуры

Отслеживая тренды, становится понятно, как будет применяться ИИ в будущем. Например, сейчас реализуются эксперименты по использованию ИИ на стыке управления мониторингом и другими практиками: информационной безопасности, управления мощностями, управления изменениями.

1. Планирование ИТ-ресурсов

В чем суть. ИИ можно подключить к анализу исторических данных, связанных с потреблением мощностей. А затем рассчитать, что необходимо для запуска новых или масштабирования существующих ИТ-сервисов. Некоторые алгоритмы учатся определять не только технические требования, например, количество или характеристики оборудования, но и число инженеров для последующего обслуживания. Кроме того, после запуска новых участков ИТ-инфраструктуры ИИ проконтролирует, насколько оптимально используются ресурсы.

Что дает. Модели опираются на фактические данные по использованию сервисов. Поэтому они учитывают особенности конкретного бизнеса и специфику инфраструктуры. ИИ точнее рассчитает ресурсы, необходимые для предоставления сервисов и услуг. В конечном счете это позволит повысить эффективность бюджетирования затрат на ИТ.

2. Выявление узких мест в работе инфраструктуры

В чем суть. Даже правильный расчет необходимых мощностей при проектировании инфраструктуры не гарантирует, что удастся избежать ошибок на практике.

На ИИ можно отдать анализ данных потребления мощностей оборудования, чтобы выявлять точки оптимизации. Например,получится обнаружить, что одно устройство часто работает на пределе, а ресурсы аналогичной техники используются по минимуму.

Что дает. Благодаря ИИ узкие места в ИТ-ландшафте будут отслеживаться автоматически. Исправление ошибок позволит повысить устойчивость инфраструктуры, так как техника будет реже выходить из строя из-за перегрузок. Кроме того, снизятся риски преждевременного износа оборудования.

3. Поиск первопричин инцидентов

В чем суть. Проактивный подход не исключает вероятности возникновения инцидентов. Но можно сократить время на их расследование. В этом контексте одна из основных задач — быстрее обнаружить первопричину сбоя.

Зачастую из-за различных аварий на инфраструктуре становятся недоступными связанные устройства и сервисы. Зонтичные системы помогают точно определить, авария на каком оборудовании послужила источником. Для этого используются ресурсно-сервисные модели (РСМ) — схемы, на которых отображаются взаимосвязи оборудования, сервисов и услуг.

Однако возможности таких схем ограниченны. Например, на РСМ нельзя отобразить неочевидные взаимосвязи. Допустим, в компании имеется большое количество объектов ИТ-инфраструктуры, при этом влияние данных объектов друг на друга не всегда «прямое». Для работы с такими случаями можно научить ИИ анализировать логи информационных систем, выявлять непрямые зависимости между техникой и информационными системами и находить первоисточник проблемы.

Что дает. Быстрее выявляются первопричины сбоев даже в сложной инфраструктуре с неочевидными взаимосвязями между объектами. А значит, снижается время простоев.

4. Перенастройка триггеров

В чем суть. В системе мониторинга настраиваются триггеры — пороговые значения метрики, при достижении которых запускаются определенные сценарии реагирования. Например, когда свободная память сервера снижается до указанного уровня, автоматически регистрируется инцидент и отправляется уведомление ответственным специалистам.

Настройка триггеров — трудоемкий, но важный процесс, который позволяет избежать падения сервисов. Обычно актуализация настроек требуется при изменении ИТ-ландшафта, иначе повышаются риски возникновения инцидентов.

Для решения подобной задачи можно обучить интеллектуальную систему анализировать историю изменения значений метрик, сопоставлять их с настройками триггеров и контролировать актуальность. При необходимости ИИ сможет создавать рекомендации для изменения пороговых значений триггера или даже делать это самостоятельно.

Также модель может предложить настроить триггер, который не учитывается в текущем мониторинге. Например, если выявит взаимосвязь между изменением значений определенной метрики и возникновением сбоя.

Что дает. Технология автоматизирует рутинные операции по настройке триггеров. Благодаря чему высвобождается время ИТ-специалистов, а также снижается вероятность пропустить сбой.

Главное

  1. Применение искусственного интеллекта в зонтичном мониторинге помогает обрабатывать огромные массивы данных, в которых скрыта ценная информация о состоянии ИТ-инфраструктуры.
  2. Сейчас в практике мониторинга ИИ чаще используется для выявления закономерностей и прогнозирования поведения метрик. Так, технология уже сейчас дает возможность снизить длительность простоев сервисов и повысить качество работы инфраструктуры.
  3. Развитие новых практик применения ИИ со временем поможет корректнее планировать ИТ-ресурсы под задачи бизнеса и тем самым повышать точность бюджетирования затрат на ИТ.