Чем раньше обнаружить вероятность возникновения сбоя в
Как с помощью ML-модели получить прогноз по событиям
Один из аналитических инструментов на базе ИИ, который используется в системе Naumen BSM, — это модель прогнозирования. Она анализирует значения метрик оборудования и определяет, как они будут меняться. Если сценарий неблагоприятный, то заранее предупреждает о возможной аварии. Рассмотрим, как обучить ИИ на данных конкретной метрики и учитывать прогнозы на уровне оборудования и сервисов.
Здоровье конфигурационной единицы (КЕ) зависит от одной или нескольких ключевых метрик. Значения метрик постоянно поступают в систему зонтичного мониторинга. Однако, чтобы заметить критичное изменение метрики, нужно неотрывно следить за графиком либо настроить триггер, указав пороговое значение. Тогда важное изменение метрики получится заметить по возникшему событию (алерту).
Чтобы заранее узнавать о вероятных сбоях, нужно подключить
Как подключить к метрике модель прогнозирования:
- Добавить модель к выбранной метрике.
- Задать горизонт прогнозирования.
- Обучить модель на исторических данных.
Горизонт прогнозирования — это период, например, ближайшие несколько часов или дней, на который рассчитывается прогноз. Желаемый горизонт определяет пользователь.
Остальные параметры и коэффициенты, необходимые для выстраивания прогноза, ИИ рассчитывает автоматически: частота дискретизации, объем истории, сезонность и другие. При этом учитываются свойства метрики, доступный объем истории и заданный горизонт. Обучение занимает несколько минут. Затем модель станет активна и будет периодически строить прогноз на нужный период.
Качество прогноза зависит от горизонта прогнозирования и объема исторических данных. Если в системе хранятся данные о поведении метрики лишь за одни сутки, то модель рассчитает прогноз на неделю с невысокой точностью. А когда данных уже накопилось за неделю или месяц, то прогноз за несколько часов вперед скорее окажется достаточно точным.
Рассмотрим на примере. На здоровье сервера влияет метрика «Память на диске».
Таким образом, благодаря модели прогнозирования появляется возможность предотвращать инциденты. В результате сокращается время простоев сервисов и снижаются издержки на восстановление систем.
Как с помощью ML-модели выявить аномалии в работе ИТ-систем и оборудования
В Naumen BSM предусмотрены такие инструменты интеллектуальной аналитики, как модели детектирования аномалий. Они предназначены для обнаружения отклонений в значениях метрик. Эту информацию можно использовать для выявления возможных аварий на ранних стадиях, особенно если для данной метрики не настроен триггер с пороговым значением.
Также аналитику по аномалиям можно использовать при настройке триггеров, как на уровне зонтичного, так и в системах корневого мониторинга. Статистика аномалий поможет при определении актуальных порогов, которые могут меняться в разные периоды.
ML-модель детектирования аномалий не требует устанавливать границы типичных значений. Она обучается на исторических данных и затем автоматически определяет, какие значения считать аномальными для метрики, учитывая заданный период обучения. Качество анализа зависит от свойств метрики и доступных данных.
В Naumen BSM предусмотрены несколько моделей детектирования аномалий, в основе которых лежат разные математические алгоритмы, наиболее подходящие для анализа метрик инфраструктуры. При одинаковых входных данных лучший результат может показать любая из них. И только на практике определяется, какой алгоритм будет эффективнее работать с конкретной метрикой. Для этого необходимо обучить модели и сравнить результаты.
Как подключить модель детектирования аномалий к метрике:
- Добавить одну из моделей к нужной метрике.
- Задать частоту расчета.
- Обучить модель на исторических данных.
- Повторить процедуру с одной и несколькими другими моделями.
- Сравнить результаты разных моделей и выбрать оптимальный вариант.
Модели обучаются на исторических данных, которые хранятся в системе. При этом для модели не требуется указывать множество сложных параметров. Пользователю достаточно указать частоту расчета — интервал, в рамках которого алгоритм будет анализировать поступившие данные по конкретной метрике. Например, раз в минуту.
Итог обучения — график с историческими данными, на котором красным выделены точки с нетипичными значениями. Пунктирная линия показывает момент обучения модели.
Например,
В дальнейшем этот алгоритм будет анализировать значения метрики с периодичностью, заданной пользователем. Можно настроить, чтобы система автоматически отслеживала частоту отклонений, тогда при ее повышении (если за короткое время возникает много аномалий)
Таким образом, с помощью интеллектуальной аналитики получится организовать контроль за частотой возникновения аномалий в метриках. Это позволит заблаговременно узнавать о риске возникновения сбоя и вовремя реагировать на подобные ситуации. Также
Как использовать результаты ML-моделей
Результаты предиктивного анализа можно учитывать при определении здоровья оборудования и сервисов. Разберем, как это происходит.
Различные компоненты
При оценке состояния КЕ учитываются события, которые уже произошли, но также могут учитываться и прогнозы. Тогда в случаях, когда прогнозируется недопустимое значение метрик или обнаружены аномалии, установится определенный статус здоровья.
Допустим, одна
В ИТ-системе настраивается, как именно будет меняться здоровье КЕ под влиянием данных предиктивной аналитики. Например, чтобы при неблагоприятном прогнозе или обнаружении аномалий отображался статус здоровья «Предупреждение».
Также настраивается, какие прогнозы и аномалии следует учитывать, а какие игнорировать. У триггера, связанного с прогнозом метрики, можно задать уровень критичности. Тогда при прогнозе существенного роста или падения значений метрики можно будет создавать инцидент, а если изменения ожидаются менее значительные, просто генерировать событие для статистики, не изменяя статус здоровья КЕ.
Аналогично в правилах можно учитывать критичность и повторяемость обнаруженных аномалий. Например, событие будет создаваться только в том случае, если наблюдается несколько аномалий подряд, а не единичный выброс.
В связке с системой Naumen Service Desk можно задать несколько сценариев для событий с различным уровнем критичности и срочности. Например, для одних нужно регистрировать запрос на обслуживание, для других — инцидент. Также определяется, в каких случаях отправлять уведомление о вероятном сбое ответственному специалисту.
При прогнозе недопустимых значений метрик или продолжительных аномалий стоит формировать инцидент, связанный как с КЕ, так и с услугой или сервисом, соответственно меняя его здоровье. Это позволяет
К выводам
ML-модели в Naumen BSM прогнозируют сбои и детектируют аномалии в
Прогнозы могут влиять на статус здоровья конфигурационной единицы (компонента инфраструктуры) и связанных сервисов, а также на создание запросов и инцидентов в системе класса Service Desk. Таким образом, благодаря предиктивной аналитике