Вы успешно подписались на блог Naumen
Статьи доступны к чтению
Добро пожаловать! Регистрация прошла успешно.
Отлично! Ваш аккаунт активирован, контент доступен.
Success! Your billing info is updated.
Billing info update failed.
7 трендов ИТ-мониторинга: какие технологии использовать, чтобы не потерять деньги из-за сбоев в сервисах

7 трендов ИТ-мониторинга: какие технологии использовать, чтобы не потерять деньги из-за сбоев в сервисах

7 минут чтения

Мониторинг инфраструктуры — одна из важнейших задач ИТ, но бизнесу недостаточно реагировать на инциденты, которые уже случились. Проблемы с оборудованием или ПО приводят к недоступности сервисов и финансовым потерям. Поэтому важно свести к минимуму возможность возникновения проблем с ИТ, а в идеале — сделать так, чтобы их в принципе не возникало. Какие технологические тренды влияют на развитие и внедрение систем мониторинга — расскажем в статье.

Согласно отчету Veeam Data Protection Trends, в 2022 году 97% компаний сталкивались с непредвиденными сбоями в ИТ-системах. К каким потерям это привело, оценить сложно, но бизнес явно задумывается о том, чтобы минимизировать сбои в ИТ-инфраструктуре. В исследовании ISG (Information Services Group) 55% респондентов отметили мониторинг ИТ-инфраструктуры как самую востребованную технологию.

Для России запрос на мониторинг ИТ еще более актуален. После ухода с рынка иностранных вендоров почти 60% крупных российский компаний остались без технической поддержки и столкнулись с проблемами в обслуживании ИТ-систем. В этом аспекте контроль ИТ-инфраструктуры становится еще более важной задачей.

Кроме того, проще не допустить поломку, сбой или перегруз какого-то участка инфраструктуры, чем устранять последствия. Поэтому основные технологические тренды ИТ-мониторинга нацелены не только на быстрый поиск первопричин или устранение поломок, но и на предупреждение инцидентов. Разберем ключевые тренды, которые уже сейчас формируют облик систем мониторинга.

1. Консолидация данных о состоянии инфраструктуры

Один из важнейших трендов — консолидация данных путем создания единого ситуационного центра. Уходит в прошлое подход, при котором компании с развитой ИТ-инфраструктурой используют несколько обособленных систем мониторинга. Новый стандарт был описан еще в ITIL 4. Но почему старый перестал устраивать бизнес?

Причин множество, выделим некоторые из них:

  • если данные систем не консолидируются, приходится сложно и долго разбираться в причинах инцидентов;
  • даже если удается вовремя узнать о проблеме, приходится изучать состояние всех систем;
  • ни у кого нет целостного представления о ситуации, поэтому нельзя понять, какие услуги пострадали;
  • с одним и тем же сбоем могут разбираться несколько ИТ-специалистов — каждый на своем участке.

К цепочке «сбой — простои — финансовые потери» добавляется еще звено «неэффективное использование ресурсов». Так как речь идет о труде ИТ-специалистов, ресурсы эти обычно высокооплачиваемые.

На этом фоне набирает популярность зонтичный мониторинг. Такие системы не подключаются к самим объектам, а получают данные от инфраструктурных систем мониторинга. Зонтичные системы прекрасно справляются с задачами сбора, хранения и анализа информации о состоянии ИТ-инфраструктуры и становятся центром решения инцидентов. Специалисты видят единую картину происходящего, поиск первопричин сбоев упрощается (и ускоряется), все заинтересованные понимают, какие сервисы пострадали и как быстро восстановится работа. Также зонтичные системы могут прогнозировать сбои.

2. Предиктивная аналитика

Использование технологий машинного обучения в предиктивной аналитике — еще один важный тренд. Задача: спрогнозировать инцидент, чтобы не допустить сбой, или минимизировать последствия, если предотвратить не получается.

Объемы данных, которые собирают системы мониторинга, велики. И чем больше информации нужно обработать, тем выше потребность в нейросетях. Вручную находить отклонения практически невозможно, а рукописные правила корреляции не учитывают все нюансы. На помощь приходят методы Machine Learning (ML), которые способны объединять информацию из разных источников, сопоставлять данные и выявлять закономерности.

Одни из самых распространенных моделей машинного обучения в предиктивной аналитике — детектирование аномалий и прогнозирование трендов. Они способны предсказать инцидент, опираясь на прогнозы значений метрик, или выявить аномалии до того, как случилась авария.

Модели детектирования аномалий. Определяют нетипичное значение метрики и ищут эти аномальные значения в системах. Выявляют аномалии с помощью статистического анализа. Человек настраивает, сколько раз метрика должна выйти из коридора типичных значений, какое отклонение допустимо и на какой объем истории нужно смотреть, чтобы увидеть типичное поведение. А модель на основе исторических данных определяет, что именно должно считаться аномальным поведением.

Модели прогнозирования тренда. Предсказывают, как будет меняться значение метрики в ближайшем будущем, чтобы предотвратить инцидент. Все предсказания основываются на исторических данных, горизонт прогнозирования настраивает человек. При настройке нужно учитывать не только желаемую дальность прогноза, но и другие параметры. Например, свойства оборудования, с которым связана метрика, частоту обновления метрики, как сильно меняется значение метрики в нормальном режиме, особенности бизнес-процесса и т.п. В дальнейшем дело за упрощением настроек предиктивных моделей и триггеров.

Инструменты для предиктивного анализа и раннего реагирования пока что применяются далеко не во всех системах мониторинга, но тренд очевиден. Например, системы зонтичного мониторинга позволяют анализировать метрики устройств, в том числе с помощью технологий предиктивной аналитики.

3. Анализ коренных причин инцидента

Активно развиваются технологии, направленные на решение одной из важнейших задач мониторинга — определение первопричины инцидента, он же Root Cause Analysis. Просто видеть список инцидентов, который соберет система мониторинга, — недостаточно. Пострадать могут многие участки системы, но разбираться с локальными сбоями неэффективно, нужно искать корень проблемы. Докопаться до первопричин и устранить поломку помогают ресурсно-сервисные модели и технологии ML.

Ресурсно-сервисная модель. РСМ — это визуализация инфраструктуры. На схеме отображаются активы, взаимосвязи между ними и как они влияют на разные услуги и сервисы. Модель позволяет быстро разобраться, где именно возникла неполадка: оборудование или программа, на которых возник сбой, будут определенным образом выделены. Также будет видно, какие зависимые сервисы и услуги перестали предоставляться.

Технологии ML в системах класса AIOps, Artificial Intelligence for IT Operations. Если РСМ показывает, какое устройство сломалось и какие сервисы отключатся, то ML разбирает проблему глубже. Нейросети проанализируют логи на сломавшемся устройстве, сопоставят все данные из информационных систем и выяснят причину инцидента. ML критически важен там, где объем данных большой, они не структурированы и запутанны. Когда невозможно разложить данные и построить взаимосвязи в РСМ, используются нейросети.

Например, компания предоставляет множество сервисов и услуг клиентам. Под каждым сервисом — своя большая инфраструктура, структуры напрямую друг с другом не связаны. Поломка одного сервиса приводит к неполадкам в другом. Прямых взаимосвязей не видно, поэтому РСМ на верхнем уровне нарисовать невозможно. Косвенные взаимосвязи помогают обнаружить технологии ML. Они определяют, в каком именно сервисе возникла неполадка, которая повлияла на работоспособность другого сервиса, и анализируют, как один сервис мог повлиять на другой.

4. Прогноз сбоев в оказании услуг

Модели предиктивной аналитики предсказывают сбои, но формат этих прогнозов обычно понятен только инженерам. Один из трендов заключается в том, чтобы не только отслеживать и прогнозировать поломки оборудования, но и предсказывать, какие услуги из-за этого перестанут работать. И предоставлять информацию об этом заинтересованным лицам в понятном виде.

Причем технологии мониторинга могут проанализировать исторические данные о разрешении инцидентов и добавить в прогноз информацию о наиболее вероятной скорости решения. Допустим, раньше это оборудование уже отключалось, причина поломки та же, что выявлена в прогнозе. Статистика показывает, что решение проблемы занимает в среднем 4 часа. Система расширяет прогноз, добавляя информацию о том, что возможно отключение и ожидается простой такой-то услуги в течение 4 часов. Таким образом, если ИТ-специалисты не успеют предотвратить сбой, отключение не станет неожиданностью для пользователей услуг, и все будут знать, когда восстановится работа.

5. Автоматическая коррекция порогов (правил) триггеров

Еще один тренд, связанный с машинным обучением. Нейросети подсказывают или сами редактируют пороги, опираясь на историю изменения характеристик оборудования и возникновения инцидентов. В чем суть технологии.

Система мониторинга отслеживает значения метрик оборудования, и на эти метрики настраиваются триггеры. Контролировать метрики и следить за их изменением гораздо эффективнее, чем сталкиваться с уже произошедшим падением сервисов. Это помогает справиться с проблемой актуализации триггеров. Как правило, триггеры настраиваются один раз, и больше их никто не обновляет. Но когда в ИТ-ландшафт добавятся новые объекты, триггеры становятся неактуальными. А если их не обновить, повышается риск пропустить какой-то инцидент.

Технологии машинного обучения следят за историей изменения метрики. И если в системе что-то меняется и триггер становится неактуальным, ML порекомендуют обновить правила и условия возникновения триггера или установят актуальные значения самостоятельно.

В будущем такие модели смогут объединять данные о появлении инцидента и значения метрик. Например, через 5 минут после изменения такой-то метрики на одном участке инфраструктуры всегда наступает какой-то инцидент. Но правила и триггеры, касающиеся этого инцидента, не настроены. Нейросеть заметит взаимосвязь между изменением метрик и инцидентом, и порекомендует настроить дополнительный триггер.

6. Расчет ресурсов при масштабировании инфраструктуры

Следующий тренд — на стыке систем мониторинга и систем управления мощностями. Технологии ML из систем мониторинга используются для проектирования новых частей инфраструктуры и поиска структурных ошибок на основе исторических данных.

Проектирование новых частей инфраструктуры. Когда в компании планируется запустить новый или масштабировать старый сервис, возникает задача спроектировать инфраструктуру. Технологии машинного обучения анализируют историю потребления мощностей и рассчитывают, какие ресурсы потребуются, и в дальнейшем помогают контролировать, оптимально ли они используются.

Поиск структурных ошибок. Нейросеть мониторит текущую инфраструктуру, следит за потреблением мощностей и находит ошибки. Например, система была спроектирована неправильно, и теперь один сервер загружен на 100%, а второй, более мощный, — на 20%. ML порекомендуют перераспределить ресурсы, чтобы система заработала быстрее.

7. Мониторинг бизнес-метрик

Раньше ИТ-мониторинг рассматривался исключительно как ИТ-услуга. Сейчас решения мониторинга начинают применять для мониторинга работы всех подразделений компании — от отдела продаж до финансовых служб. Дело в том, что системе мониторинга все равно, какие метрики контролировать. Главное условие, чтобы данные были оцифрованы, а правила настроены. И не важно, откуда информация поступает в систему, — с сервера или из CRM. Так с помощью систем мониторинга можно контролировать состояние всего бизнеса.

Распространение тренда тормозит человеческий фактор. В техническом мониторинге все просто: на оборудование ставится агент, который собирает данные и передает в систему для анализа. Все происходит автоматически. Когда речь идет о сборе информации для формирования бизнес-метрик, процесс усложняется. Да, бизнес устанавливает программы, чтобы оцифровывать результаты. Но некоторые данные по-прежнему нужно заносить вручную. Один человек внес данные, а другой — забыл или сделал это не вовремя. А система проанализировала неполные сведения и зафиксировала инцидент.

Однако тренд уже возник, и, вероятно, совсем скоро на базе систем ИТ-мониторинга возникнет новый класс систем, предназначенных для бизнес-мониторинга или бизнес-анализа. Осталось только придумать, как собирать данные о бизнесе так, чтобы все работало корректно.

К выводам

Задачи, которые ставит бизнес перед системами ИТ-мониторинга, усложняются. Это подстегивает внедрение новейших технологий и методов. Компании не хотят терять деньги из-за поломок — системы мониторинга начинают работать на опережение и помогают не допускать сбоев. Бизнес заинтересован в скорейшем восстановлении работоспособности сервисов и услуг, если инцидент все-таки наступил, — и системы мониторинга фокусируются на определении причин проблемы. Компании не хотят трогать «то, что и так работает», — и системы мониторинга учатся автоматически настраивать правила и триггеры. Компании хотят мониторить ресурсы или бизнес в целом — и технологии мониторинга масштабируются на процессы вне ИТ.

Трудно представить, какие еще задачи научится решать ИТ-мониторинг в будущем. Применение методов машинного обучения открывает самые широкие возможности для развития. Кто знает, может быть, уже завтра системы научатся самостоятельно справляться с инцидентами и проблемами без участия человека?