Прогноз для ИТ-инфраструктуры: как работает предиктивная аналитика

Простои из-за инцидентов и сбоев в инфраструктуре — один из источников финансовых потерь для бизнеса. Этого можно избежать с помощью инструментов предиктивного анализа. Как работает технология в ИТ-мониторинге, рассматриваем в статье.

Что дает предиктивная аналитика бизнесу

Даже нормализованные и структурированные данные сами по себе не дают ценности бизнесу. Ценность появляется тогда, когда они становятся основой для аналитики и принятия решений. Чтобы анализировать большие массивы данных, используются предиктивные модели — инструменты, основанные на технологиях искусственного интеллекта и машинного обучения. Модели предназначены для прогнозирования тренда и выявления аномалий в поведении метрик.

Технология универсальна и применяется в разных сферах. Например, в розничной торговле — предсказывает спрос и планирует складские запасы, в HR — выявляет системные факторы, влияющие на решение сотрудников об увольнении, в финансовой отрасли — оценивает платежеспособность клиента при кредитовании, в промышленности — своевременно замечает аномалии в работе оборудования.

Что такое предиктивная аналитика в ИТ-мониторинге

ИТ-инфраструктура также генерирует множество данных, которые становятся ценным источником. Практически в любой крупной компании есть системы инфраструктурного мониторинга, которые постоянно отслеживают работу устройств. Системы собирают технические данные — метрики или показатели, характеризующие текущее состояние объектов. Что происходит с этими данными дальше, зависит от уровня ИТ-зрелости компании.

Например, при классическом мониторинге ИТ-специалисты получают уведомления о сбоях, которые уже произошли. При высоком уровне зрелости организации применяют проактивный подход: мониторят изменение показателей в работе оборудования, чтобы предсказывать возможные инциденты и не допускать их возникновения. Для этого используются модели предиктивной аналитики.

Чтобы разобраться в вопросе, сначала рассмотрим, как работает мониторинг при классическом подходе.

Системы мониторинга обнаруживают уже случившиеся сбои и уведомляют о них ИТ-службы. Специалисты восстанавливают работу сервисов, а при устранении инцидентов используют технические данные из систем мониторинга. Без систем инфраструктурного мониторинга и технических данных, которые они собирают, обеспечение работоспособности ИТ было бы трудоемкой задачей. Однако подобный подход имеет и недостатки:

Высокий риск выбрать неправильное решение или допустить ошибку. Когда инцидент наступил, сотрудник старается как можно скорее восстановить работу сервиса. Авральный режим зачастую не позволяет досконально разобраться в ситуации и найти самый оптимальный способ.
Специалисты узнают о том, что оборудование не в порядке, когда проблема уже наступила. Причем сбои могут возникать даже в том случае, если устройства своевременно обслуживаются.
Пока специалисты решают инциденты, связанные услуги и сервисы остаются недоступны. Из-за этого возникают простои в работе различных служб, что влечет финансовые потери. Они особенно высоки, если пострадали критически важные услуги.

Предиктивные модели позволяют выявлять аномалии в работе оборудования, прогнозировать поведение метрик, уведомлять о вероятности появления проблем. В итоге до минимума снижаются риски возникновения сбоев, организация экономит на ремонте и простоях. Дополнительный эффект — оборудование медленнее изнашивается за счет постоянного контроля метрик и своевременного профилактического обслуживания.

Инструменты предиктивной аналитики

Системы инфраструктурного мониторинга фиксируют текущие значения метрик — показателей работы оборудования. К каждой метрике можно привязывать триггеры. Так называют механизмы, которые запускаются (активируются) при возникновении одного или нескольких условий. Один из возможных вариантов — при достижении порогового значения метрики формируется событие мониторинга. Событие обрабатывается в соответствии с настройками. Например, далее автоматически создается и отправляется ответственным сотрудникам предупреждение о риске сбоя.

Зонтичная система получает из систем инфраструктурного мониторинга данные о происходящем в ИТ-инфраструктуре и консолидирует в едином интерфейсе, позволяя анализировать их с помощью встроенных предиктивных моделей.

Предиктивные модели вычисляют, как будут меняться значения метрик, и выявляют вероятные отклонения, которые могут негативно сказаться на работе оборудования. На основе прогнозов формируются графики метрик с текущими и предсказанными значениями. К прогнозам также можно привязать триггеры, которые будут формировать событие о возможном сбое.

Далее разберем, как модели детектируют аномалии и выявляют тренды.

Детектирование аномалий. Система анализирует историю значений и определяет типичное поведение метрики, а для вновь поступающих делает вывод — значения аномальны или находятся в пределах нормы. Что система будет считать отклонениями, зависит от выбранной модели детектирования и ее настроек. Как правило, нужно заранее определить:

какая степень отклонения от типичных значений является аномальной;
период истории, в рамках которого анализируется метрика для выявления типичных значений;
сколько раз подряд система должна зарегистрировать отклонения (нетипичные значения), чтобы диагностировать аномалию.

График показывает обнаруженное моделью аномальное поведение метрики

Разберем, что отображается на графике выше:

зеленая линия — текущее значение метрики;
фиолетовая линия (пунктир) — момент фиксации аномалии (наступление события);
красная линия — значения метрики, которые предсказываются на основе накопленной истории;
область между оранжевой и голубой линиями — доверительный коридор значений. Если текущие значения метрики (зеленая линия) не совпали с прогнозными (красная линия), но попали в доверительный коридор (поле между нижней и верхней линиями, т.е. границами доверительного интервала), то отклонение считается допустимым.

Аномальными считаются значения, которые не попали в доверительный коридор. Если аномалия возникла 1 раз — это, скорее всего, случайность, поэтому значение просто считается нетипичным. Если выявлено несколько отклонений подряд, то это уже считается аномалией, которая должна быть зарегистрирована как событие.

В примере на графике указан показатель «Повторов для активации» — 4. Это значит, что если нетипичные значения фиксируются 4 раза подряд, то система определяет аномалию и отправляет уведомление о возможном сбое. График позволяет быстро понять, какое поведение метрики отмечено как аномалия, и проверить — это ложная тревога или реальная угроза.

Допустим, система зафиксировала всплеск загрузки данных на стенд. Сервер, который обеспечивает его работу, оказался перегружен, и система отмечает критическое значение показателя «Свободное место на диске». Если отклонения повторятся несколько раз подряд, то система подаст сигнал ИТ-службе, что пора увеличить мощности сервера.

Выявление трендов. В работающей инфраструктуре большинство отслеживаемых метрик не статичны. Они меняются в большую или меньшую сторону, когда сервисами и услугами организации кто-то пользуется. Например, когда финансовый отдел формирует сложный отчет или много пользователей одновременно заходят на сайт, уменьшается объем доступной оперативной памяти серверов, которые связаны с предоставлением этих услуг. Предиктивные модели умеют прогнозировать вероятное поведение метрик на период. Тенденция на изменение значений в сторону повышения или понижения называется трендом.

График показывает прогноз по объему свободного места на диске на ближайший час

Период, на который делается предсказание, называется горизонтом прогнозирования. Например, в системе зонтичного мониторинга Naumen BSM горизонт прогнозирования определяет пользователь.

При установлении этого параметра нужно учитывать:

свойства оборудования, частоту обновления и колебания типичных значений метрики;
специфику бизнес-процессов. Например, скорость реагирования на тревожный прогноз в соответствии с SLA.

Необходимость настройки остальных параметров модели зависит от системы зонтичного мониторинга. Например, при использовании Naumen BSM пользователь задает только горизонт прогнозирования, и остальные характеристики модели (гиперпараметры) система подбирает автоматически.

Комплекс показателей. Система позволяет настраивать «обобщенный триггер», который объединяет разные метрики или модели. Триггер срабатывает, когда фиксируются или прогнозируются нетипичные значения нескольких метрик.

Допустим, корпоративное мобильное приложение работает на одном из серверов компании. Чем больше сотрудников одновременно заходит в приложение, тем больше места на диске будет занято. С помощью обобщенного триггера можно одновременно отслеживать текущее значение метрики «свободная память» и прогнозное значение по активным пользователям. Например, прогнозируется дальнейший рост числа пользователей, а диск уже практически заполнен. Обобщенный триггер позволяет своевременно узнать о необходимости увеличения объема памяти и избежать сбоев в работе приложения.

При выявлении тенденции модель предиктивной аналитики сопоставила значения двух показателей системы: прогноз по количеству пользователей стенда и текущий объем свободной памяти

Обобщенный триггер позволяет отслеживать тенденции одновременно в нескольких взаимосвязанных метриках. Это помогает находить возможные причины возникновения изменений.

К выводам

Классический мониторинг ИТ-инфраструктуры предполагает реагирование на сбои, которые уже наступили. Компания теряет деньги из-за простоев и затрат на ремонт, а также лояльность пользователей из-за недоступности сервисов.

Проактивный подход к мониторингу позволяет предугадать возможные инциденты заранее. Предиктивные модели, описанные в статье, позволяют выявлять тренды и обнаруживать аномалии. Другие модели позволяют находить зависимости между связанными показателями различных элементов инфраструктуры. Благодаря им можно реагировать на изменения в инфраструктуре, которые еще не стали критичными. Возможности прогнозной аналитики позволяют перевести ИТ-мониторинг компании на новый уровень, улучшить работу сервисов и инфраструктуры в целом.