Мониторинг инфраструктуры — одна из важнейших задач ИТ, но бизнесу недостаточно реагировать на инциденты, которые уже случились. Проблемы с оборудованием или ПО приводят к недоступности сервисов и финансовым потерям. Поэтому важно свести к минимуму возможность возникновения проблем с ИТ, а в идеале — сделать так, чтобы их в принципе не возникало. Какие технологические тренды влияют на развитие и внедрение систем мониторинга — расскажем в статье.
Согласно отчету Veeam Data Protection Trends, в 2022 году 97% компаний сталкивались с непредвиденными сбоями в
Для России запрос на мониторинг ИТ еще более актуален. После ухода с рынка иностранных вендоров почти 60% крупных российский компаний остались без технической поддержки и столкнулись с проблемами в обслуживании
Кроме того, проще не допустить поломку, сбой или перегруз какого-то участка инфраструктуры, чем устранять последствия. Поэтому основные технологические тренды
1. Консолидация данных о состоянии инфраструктуры
Один из важнейших трендов — консолидация данных путем создания единого ситуационного центра. Уходит в прошлое подход, при котором компании с развитой
Причин множество, выделим некоторые из них:
- если данные систем не консолидируются, приходится сложно и долго разбираться в причинах инцидентов;
- даже если удается вовремя узнать о проблеме, приходится изучать состояние всех систем;
- ни у кого нет целостного представления о ситуации, поэтому нельзя понять, какие услуги пострадали;
- с одним и тем же сбоем могут разбираться несколько
ИТ-специалистов — каждый на своем участке.
К цепочке «сбой — простои — финансовые потери» добавляется еще звено «неэффективное использование ресурсов». Так как речь идет о труде
На этом фоне набирает популярность зонтичный мониторинг. Такие системы не подключаются к самим объектам, а получают данные от инфраструктурных систем мониторинга. Зонтичные системы прекрасно справляются с задачами сбора, хранения и анализа информации о состоянии
2. Предиктивная аналитика
Использование технологий машинного обучения в предиктивной аналитике — еще один важный тренд. Задача: спрогнозировать инцидент, чтобы не допустить сбой, или минимизировать последствия, если предотвратить не получается.
Объемы данных, которые собирают системы мониторинга, велики. И чем больше информации нужно обработать, тем выше потребность в нейросетях. Вручную находить отклонения практически невозможно, а рукописные правила корреляции не учитывают все нюансы. На помощь приходят методы Machine Learning (ML), которые способны объединять информацию из разных источников, сопоставлять данные и выявлять закономерности.
Одни из самых распространенных моделей машинного обучения в предиктивной аналитике — детектирование аномалий и прогнозирование трендов. Они способны предсказать инцидент, опираясь на прогнозы значений метрик, или выявить аномалии до того, как случилась авария.
Модели детектирования аномалий. Определяют нетипичное значение метрики и ищут эти аномальные значения в системах. Выявляют аномалии с помощью статистического анализа. Человек настраивает, сколько раз метрика должна выйти из коридора типичных значений, какое отклонение допустимо и на какой объем истории нужно смотреть, чтобы увидеть типичное поведение. А модель на основе исторических данных определяет, что именно должно считаться аномальным поведением.
Модели прогнозирования тренда. Предсказывают, как будет меняться значение метрики в ближайшем будущем, чтобы предотвратить инцидент. Все предсказания основываются на исторических данных, горизонт прогнозирования настраивает человек. При настройке нужно учитывать не только желаемую дальность прогноза, но и другие параметры. Например, свойства оборудования, с которым связана метрика, частоту обновления метрики, как сильно меняется значение метрики в нормальном режиме, особенности
Инструменты для предиктивного анализа и раннего реагирования пока что применяются далеко не во всех системах мониторинга, но тренд очевиден. Например, системы зонтичного мониторинга позволяют анализировать метрики устройств, в том числе с помощью технологий предиктивной аналитики.
3. Анализ коренных причин инцидента
Активно развиваются технологии, направленные на решение одной из важнейших задач мониторинга — определение первопричины инцидента, он же Root Cause Analysis. Просто видеть список инцидентов, который соберет система мониторинга, — недостаточно. Пострадать могут многие участки системы, но разбираться с локальными сбоями неэффективно, нужно искать корень проблемы. Докопаться до первопричин и устранить поломку помогают
Технологии ML в системах класса AIOps, Artificial Intelligence for IT Operations. Если РСМ показывает, какое устройство сломалось и какие сервисы отключатся, то ML разбирает проблему глубже. Нейросети проанализируют логи на сломавшемся устройстве, сопоставят все данные из информационных систем и выяснят причину инцидента. ML критически важен там, где объем данных большой, они не структурированы и запутанны. Когда невозможно разложить данные и построить взаимосвязи в РСМ, используются нейросети.
Например, компания предоставляет множество сервисов и услуг клиентам. Под каждым сервисом — своя большая инфраструктура, структуры напрямую друг с другом не связаны. Поломка одного сервиса приводит к неполадкам в другом. Прямых взаимосвязей не видно, поэтому РСМ на верхнем уровне нарисовать невозможно. Косвенные взаимосвязи помогают обнаружить технологии ML. Они определяют, в каком именно сервисе возникла неполадка, которая повлияла на работоспособность другого сервиса, и анализируют, как один сервис мог повлиять на другой.
4. Прогноз сбоев в оказании услуг
Модели предиктивной аналитики предсказывают сбои, но формат этих прогнозов обычно понятен только инженерам. Один из трендов заключается в том, чтобы не только отслеживать и прогнозировать поломки оборудования, но и предсказывать, какие услуги
Причем технологии мониторинга могут проанализировать исторические данные о разрешении инцидентов и добавить в прогноз информацию о наиболее вероятной скорости решения. Допустим, раньше это оборудование уже отключалось, причина поломки та же, что выявлена в прогнозе. Статистика показывает, что решение проблемы занимает в среднем 4 часа. Система расширяет прогноз, добавляя информацию о том, что возможно отключение и ожидается простой
5. Автоматическая коррекция порогов (правил) триггеров
Еще один тренд, связанный с машинным обучением. Нейросети подсказывают или сами редактируют пороги, опираясь на историю изменения характеристик оборудования и возникновения инцидентов. В чем суть технологии.
Система мониторинга отслеживает значения метрик оборудования, и на эти метрики настраиваются триггеры. Контролировать метрики и следить за их изменением гораздо эффективнее, чем сталкиваться с уже произошедшим падением сервисов. Это помогает справиться с проблемой актуализации триггеров. Как правило, триггеры настраиваются один раз, и больше их никто не обновляет. Но когда в
Технологии машинного обучения следят за историей изменения метрики. И если в системе
В будущем такие модели смогут объединять данные о появлении инцидента и значения метрик. Например, через 5 минут после изменения
6. Расчет ресурсов при масштабировании инфраструктуры
Следующий тренд — на стыке систем мониторинга и систем управления мощностями. Технологии ML из систем мониторинга используются для проектирования новых частей инфраструктуры и поиска структурных ошибок на основе исторических данных.
Проектирование новых частей инфраструктуры. Когда в компании планируется запустить новый или масштабировать старый сервис, возникает задача спроектировать инфраструктуру. Технологии машинного обучения анализируют историю потребления мощностей и рассчитывают, какие ресурсы потребуются, и в дальнейшем помогают контролировать, оптимально ли они используются.
Поиск структурных ошибок. Нейросеть мониторит текущую инфраструктуру, следит за потреблением мощностей и находит ошибки. Например, система была спроектирована неправильно, и теперь один сервер загружен на 100%, а второй, более мощный, — на 20%. ML порекомендуют перераспределить ресурсы, чтобы система заработала быстрее.
7. Мониторинг бизнес-метрик
Раньше
Распространение тренда тормозит человеческий фактор. В техническом мониторинге все просто: на оборудование ставится агент, который собирает данные и передает в систему для анализа. Все происходит автоматически. Когда речь идет о сборе информации для формирования
Однако тренд уже возник, и, вероятно, совсем скоро на базе систем ИТ-мониторинга возникнет новый класс систем, предназначенных для
К выводам
Задачи, которые ставит бизнес перед системами
Трудно представить, какие еще задачи научится решать