Будь здорова, ИТ-инфраструктура: визуализация данных как метод диагностики сервисов

Контроль инфраструктуры — основная задача руководителя ИТ-подразделения. Однако есть участки, которые необходимо мониторить и другим сотрудникам. К примеру, менеджеру услуги — работоспособность конкретного сервиса, топ-менеджменту — доступность критически важных для компании бизнес-услуг. При этом информация должна быть понятной любому сотруднику, независимо от роли.

В системе зонтичного мониторинга Naumen BSM реализованы дашборды, которые помогают отслеживать, как работает оборудование и предоставляемые услуги в организации. Такие дашборды гибко адаптируются под нужные задачи аналитики. Также в ИТ-системе есть преднастроенные дашборды, которые умеют собирать аналитику по происходящим в ИТ-инфраструктуре событиям. В статье разберем, каким сотрудникам будут полезны подобные дашборды и какая информация на них выводится.

Задача 1. Оперативный контроль доступности услуги в конкретный момент

В системе Naumen BSM собираются данные по разным ИТ-объектам. Например, дежурный инженер на одном экране может контролировать десятки услуг одновременно, ИТ-специалист — только те поддерживающие услуги, за которые отвечает. Рассмотрим, какие типы дашбордов пригодятся для таких задач.

Здоровье критичных бизнес-услуг

Кому подойдет — для руководителей ИТ-подразделений и топ-менеджеров.

Что выводится на дашборд — услуга, цветовой индикатор состояния, дата и время изменения состояния. Из любой услуги можно перейти на ресурсно-сервисную модель (РСМ), чтобы узнать, с какими другими объектами ИТ-инфраструктуры она связана. Доступность услуг определяется на основе событий, которые фиксируются в системе мониторинга. В зависимости от ситуации и настроек для состояния услуги отображается определенный цвет. Например, зеленый, красный, желтый или серый.

Как интерпретировать:

Зеленый — услуга доступна. Все ИТ-ресурсы, влияющие на доступность услуги, работают в штатном режиме.
Красный — услуга недоступна. В ИТ-структуре были обнаружены объекты, которые вышли из строя, что напрямую повлияло на работу услуги.
Желтый — предупреждение. Система мониторинга зафиксировала событие, из-за которого оборудование потенциально может выйти из строя, но пока работает. Например, сервер перегрелся и в ближайшее время отключится, если не принять меры.
Серый — услуга потенциально недоступна. Цвет используется, когда сразу неизвестно, повлияла ли поломка оборудования на работу услуги. Например, в структуре услуги предусмотрена поддержка двух серверов — основного и резервного. Когда один сервер недоступен, услуга автоматически должна переключиться на второй. Но произойдет ли это переключение на самом деле — неизвестно. По факту об отключении услуги можно будет узнать из другого источника. Например, если в систему Service Desk поступит заявка от пользователя.

Еще в системе можно организовать контроль различных услуг на уровне отдельных филиалов и подразделений. Например, торговая сеть включает 25 магазинов. Руководитель ИТ хочет видеть, доступность услуги «Интернет» в каждом из них. В таком случае на дашборд выбранной услуги выводится перечень названий всех подразделений. Цветовой индикатор подскажет, работает там интернет или произошел сбой.

Здоровье большого количества услуг

Кому подойдет — для дежурных администраторов, которым необходимо отслеживать состояние множества услуг онлайн.

Что выводится на дашборд — перечень услуг и их состояние.

Как интерпретировать — цветовое кодирование аналогично примеру выше, где описываем дашборд «Здоровье критичных бизнес-услуг».

Здоровье поддерживающих услуг

Кому подойдет — для ИТ-специалистов и администраторов, которые отвечают за работоспособность поддерживающей услуги.

Допустим, администратор отвечает за работу коммутаторов, от которых частично зависит доступность интернета. Сама услуга «Интернет» в зоне компетенции другого специалиста. Администратор следит только за состоянием услуги «Сетевое оборудование», поэтому будет получать уведомления о работе коммутаторов из системы мониторинга, а при возникновении инцидента устранять поломку оборудования.

Что выводится на дашборд — название и состояние поддерживающей услуги, дата обновления состояния, активные события. Например, отклонение, предупреждение, восстановление.

Задача 2. Контроль состояния услуги в динамике

Контролировать состояние услуги на уровне «работает — не работает» не всегда достаточно. Для более детального мониторинга доступности услуг в Naumen BSM предусмотрен базовый аналитический дашборд.

Показатели конкретной услуги

Кому подойдет — для менеджеров услуг, чтобы отслеживать статистику событий и инцидентов в различных разрезах.

Что выводится на дашборд — детальная статистика по услуге. Например, количество инцидентов, скорость восстановления, какие сотрудники устраняли поломки. Дашборд консолидирует статистику по событиям и инцидентам, группирует их по типам и ответственным сотрудникам. Эти данные позволяют оценить доступность услуги, состояние инфраструктуры и работу команды.

Как интерпретировать:

Количество поступивших событий, Предупреждение, Отклонение — сколько критичных событий по услуге зарегистрировано системой мониторинга.

На основе этих данных можно сделать вывод о том, в каком состоянии находится поддерживающая инфраструктура. Так, большое количество негативных событий и инцидентов зачастую говорит об износе оборудования.

Количество зарегистрированных инцидентов, Инцидентов в работе, Решено с соблюдением SLA, Топ сотрудников с максимально решенным числом инцидентов — насколько загружена команда и как справляются специалисты.

Например, большинство инцидентов команда устраняет с нарушением SLA. Это значит, что сотрудники не успевают в установленный срок, а услуга простаивает слишком долго. Следовательно, нужно разобраться в причинах и принять меры. Например, перераспределить ресурсы, пересмотреть SLA или заменить часто ломающееся оборудование.

Задача 3. Контроль состояния ИТ-инфраструктуры

Для эффективного управления инфраструктурой и командой в зонтичном мониторинге собирается дашборд со статистикой по всем событиям. Отчет показывает текущее состояние инфраструктуры и позволяет оценивать динамику событий и инцидентов.

Аналитика по событиям и инцидентам

Кому подойдет — для руководителей ИТ-подразделений, информация со статистикой по услугам — для менеджеров услуг.

Что выводится на дашборд — текущее состояние ИТ, включая статистику по событиям. Здесь агрегируется вся необходимая информация о состоянии инфраструктуры и работе отдела. Дашборд разделен на блоки:

Общая статистика по событиям — сколько зарегистрировано событий за конкретный период.
Аналитика событий по услугам — какие услуги чаще всего страдают, топ-5 проблемных услуг.
Аналитика событий по оборудованию — какое оборудование чаще всего ломается.
Аналитика по инцидентам.

В общей статистике данные группируются по всем событиям, поступающим из инфраструктуры.

Как интерпретировать:

Количество событий — общая статистика поступивших событий за период.
Отклонение — число событий, где триггер сработал в системе мониторинга, из которой далее данные поступили в систему зонтичного мониторинга.
Предупреждение — число событий в системе мониторинга, которое сигнализирует о возможном срабатывании триггера.

События могут связываться не только с выходом оборудования из строя (отклонением). Например, если настроить триггеры на изменение показателя в системе зонтичного мониторинга, то события будут группироваться по типам «Предупреждение» и «Отклонение». Например, когда показатель «Свободное место на диске» = 0 — это отклонение. А когда «Осталось 20%» — это предупреждение. Место на диске еще есть, и пока все работает, но скоро могут возникнуть проблемы.

Динамика поступления событий по типам и датам — показываются не только «плохие» события (отклонения и предупреждения), но и «хорошие» — восстановление работоспособности.

Так на графике выше виден всплеск по отклонениям: 10 событий зафиксированы в один день. Возможно, они произошли по одной причине. Кроме того, график показывает, что команда успешно справилась с большинством сбоев.

Аналитика событий по услугам показывает, как события в инфраструктуре влияют на бизнес и в каком состоянии находятся услуги.

Как интерпретировать:

Топ-5 проблемных услуг — рейтинг формируется по числу инцидентов, созданных на основе событий, которые приходятся на каждую услугу за период.
Динамика событий по услугам — в какие дни происходили события. Эти данные понадобятся для анализа причин.

На диаграмме выше видно, что первые места занимают услуги «Электронная почта» и «Телефония». По ним произошло больше всего событий. Судя по графику, значительная часть сбоев по услугам зафиксирована в один день. Известно, что в тот момент не работала услуга «Интернет». Скорее всего события по указанным услугам спровоцированы внешними факторами.

Аналитика событий по оборудованию показывает слабые места в инфраструктуре. Например, с каким оборудованием чаще всего возникают проблемы. С учетом дополнительных данных можно определить, какие поломки вызваны внешними факторами, а какие — перегрузками или износом оборудования.

Как интерпретировать:

Топ-5 проблемного оборудования — рейтинг формируется по количеству негативных событий на оборудовании.
Динамика событий — в какие дни зафиксированы события на оборудовании.

В совокупности диаграмма и график дают возможность сопоставить факты и проанализировать причины возникновения сбоев. Например, на графике выше видно, что в один день произошли проблемы на двух конфигурационных единицах. Известно, что в этот день зафиксирован скачок электричества, а значит, эти события могут быть ложными. Чтобы понять, так ли это, потребуется перейти в список событий.

Аналитика инцидентов показывает, по каким категориям оборудования чаще всего происходят инциденты и как команда успевает решать возникающие проблемы.

Как интерпретировать:

Активные — сколько инцидентов в работе на текущий момент.
Кончился запас времени — количество просроченных инцидентов.
Всего зарегистрировано — число зафиксированных инцидентов.
Решено, Решено с соблюдением SLA — статистика по количеству решенных инцидентов, в т.ч. в срок.
Топ-5 услуг — по каким поддерживающим услугам, а по сути на оборудовании какого типа (серверном, сетевом и т.п.) чаще всего возникают сбои.
Топ-5 внешних источников — в каких системах инфраструктурного мониторинга чаще всего фиксируются события.

Этот блок позволяет оценить соблюдение установленных регламентов обслуживания, а также увидеть, как справляется команда. На основе рейтинга «Топ-5 внешних источников» получится сделать вывод о том, в каких частях инфраструктуры чаще всего возникают сбои.

Задача 4. Контроль работы ИТ-команды

В Naumen BSM доступна настройка дашбордов с подробной аналитикой по решению инцидентов.

Статистика по инцидентам мониторинга

Кому подойдет — для руководителей ИТ-подразделений.

Что выводится на дашборд — насколько эффективно команда решает поступающие инциденты.

Как интерпретировать:

Решено, Просрочено — статистика по инцидентам позволяет оценить эффективность работы специалистов.
Просроченные по месяцам — график помогает просматривать динамику по решению инцидентов. Например, растет или уменьшается количество (процент) просроченных инцидентов по сравнению с другими месяцами.
Среднее время решения инцидентов по месяцам — сколько времени требуется специалисту на решение обращения в динамике.
Среднее количество инцидентов на сотрудника в месяц — сколько обращений в среднем приходится на инженера.

Также на дашборд можно вывести, к примеру, источники инцидентов. Это позволило бы дополнительно оценить, сколько инцидентов зафиксировано автоматически системами мониторинга, а сколько поступило от операторов техподдержки через Service Desk.

Подобный дашборд нацелен на анализ эффективности работы, чтобы в опоре на данные оценить, нужно ли пересмотреть SLA, расширить штат, и как быстро сотрудники решают инциденты в принципе.

Главное

Дашборды в Naumen BSM помогают одним сотрудникам получать оперативную информацию о доступности услуг, другим — аналитику о состоянии инфраструктуры и работе ИТ-подразделения в целом.
Данные собираются онлайн на одном экране и в понятном виде.
Фактически дашборд становится незаменимым источником информации для анализа различных ситуаций и принятия оперативных и стратегических решений, связанных с ИТ-инфраструктурой.