Будь здорова, ИТ-инфраструктура: визуализация данных как метод диагностики сервисов
Контроль инфраструктуры — основная задача руководителя
В системе зонтичного мониторинга Naumen BSM реализованы дашборды, которые помогают отслеживать, как работает оборудование и предоставляемые услуги в организации. Такие дашборды гибко адаптируются под нужные задачи аналитики. Также в
Задача 1. Оперативный контроль доступности услуги в конкретный момент
В системе Naumen BSM собираются данные по разным
Здоровье критичных бизнес-услуг
Кому подойдет — для руководителей
Что выводится на дашборд — услуга, цветовой индикатор состояния, дата и время изменения состояния. Из любой услуги можно перейти на
Как интерпретировать:
- Зеленый — услуга доступна. Все
ИТ-ресурсы , влияющие на доступность услуги, работают в штатном режиме. - Красный — услуга недоступна. В
ИТ-структуре были обнаружены объекты, которые вышли из строя, что напрямую повлияло на работу услуги. - Желтый — предупреждение. Система мониторинга зафиксировала событие,
из-за которого оборудование потенциально может выйти из строя, но пока работает. Например, сервер перегрелся и в ближайшее время отключится, если не принять меры. - Серый — услуга потенциально недоступна. Цвет используется, когда сразу неизвестно, повлияла ли поломка оборудования на работу услуги. Например, в структуре услуги предусмотрена поддержка двух серверов — основного и резервного. Когда один сервер недоступен, услуга автоматически должна переключиться на второй. Но произойдет ли это переключение на самом деле — неизвестно. По факту об отключении услуги можно будет узнать из другого источника. Например, если в систему Service Desk поступит заявка от пользователя.
Еще в системе можно организовать контроль различных услуг на уровне отдельных филиалов и подразделений. Например, торговая сеть включает 25 магазинов. Руководитель ИТ хочет видеть, доступность услуги «Интернет» в каждом из них. В таком случае на дашборд выбранной услуги выводится перечень названий всех подразделений. Цветовой индикатор подскажет, работает там интернет или произошел сбой.
Здоровье большого количества услуг
Кому подойдет — для дежурных администраторов, которым необходимо отслеживать состояние множества услуг онлайн.
Что выводится на дашборд — перечень услуг и их состояние.
Как интерпретировать — цветовое кодирование аналогично примеру выше, где описываем дашборд «Здоровье критичных
Здоровье поддерживающих услуг
Кому подойдет — для
Допустим, администратор отвечает за работу коммутаторов, от которых частично зависит доступность интернета. Сама услуга «Интернет» в зоне компетенции другого специалиста. Администратор следит только за состоянием услуги «Сетевое оборудование», поэтому будет получать уведомления о работе коммутаторов из системы мониторинга, а при возникновении инцидента устранять поломку оборудования.
Что выводится на дашборд — название и состояние поддерживающей услуги, дата обновления состояния, активные события. Например, отклонение, предупреждение, восстановление.
Как интерпретировать — цветовое кодирование аналогично примеру выше, где описываем дашборд «Здоровье критичных бизнес-услуг».
Задача 2. Контроль состояния услуги в динамике
Контролировать состояние услуги на уровне «работает — не работает» не всегда достаточно. Для более детального мониторинга доступности услуг в Naumen BSM предусмотрен базовый аналитический дашборд.
Показатели конкретной услуги
Кому подойдет — для менеджеров услуг, чтобы отслеживать статистику событий и инцидентов в различных разрезах.
Что выводится на дашборд — детальная статистика по услуге. Например, количество инцидентов, скорость восстановления, какие сотрудники устраняли поломки. Дашборд консолидирует статистику по событиям и инцидентам, группирует их по типам и ответственным сотрудникам. Эти данные позволяют оценить доступность услуги, состояние инфраструктуры и работу команды.
Как интерпретировать:
- Количество поступивших событий, Предупреждение, Отклонение — сколько критичных событий по услуге зарегистрировано системой мониторинга.
На основе этих данных можно сделать вывод о том, в каком состоянии находится поддерживающая инфраструктура. Так, большое количество негативных событий и инцидентов зачастую говорит об износе оборудования.
- Количество зарегистрированных инцидентов, Инцидентов в работе, Решено с соблюдением SLA, Топ сотрудников с максимально решенным числом инцидентов — насколько загружена команда и как справляются специалисты.
Например, большинство инцидентов команда устраняет с нарушением SLA. Это значит, что сотрудники не успевают в установленный срок, а услуга простаивает слишком долго. Следовательно, нужно разобраться в причинах и принять меры. Например, перераспределить ресурсы, пересмотреть SLA или заменить часто ломающееся оборудование.
Задача 3. Контроль состояния ИТ-инфраструктуры
Для эффективного управления инфраструктурой и командой в зонтичном мониторинге собирается дашборд со статистикой по всем событиям. Отчет показывает текущее состояние инфраструктуры и позволяет оценивать динамику событий и инцидентов.
Аналитика по событиям и инцидентам
Кому подойдет — для руководителей
Что выводится на дашборд — текущее состояние ИТ, включая статистику по событиям. Здесь агрегируется вся необходимая информация о состоянии инфраструктуры и работе отдела. Дашборд разделен на блоки:
- Общая статистика по событиям — сколько зарегистрировано событий за конкретный период.
- Аналитика событий по услугам — какие услуги чаще всего страдают,
топ-5 проблемных услуг. - Аналитика событий по оборудованию — какое оборудование чаще всего ломается.
- Аналитика по инцидентам.
В общей статистике данные группируются по всем событиям, поступающим из инфраструктуры.
Как интерпретировать:
- Количество событий — общая статистика поступивших событий за период.
- Отклонение — число событий, где триггер сработал в системе мониторинга, из которой далее данные поступили в систему зонтичного мониторинга.
- Предупреждение — число событий в системе мониторинга, которое сигнализирует о возможном срабатывании триггера.
События могут связываться не только с выходом оборудования из строя (отклонением). Например, если настроить триггеры на изменение показателя в системе зонтичного мониторинга, то события будут группироваться по типам «Предупреждение» и «Отклонение». Например, когда показатель «Свободное место на диске» = 0 — это отклонение. А когда «Осталось 20%» — это предупреждение. Место на диске еще есть, и пока все работает, но скоро могут возникнуть проблемы.
- Динамика поступления событий по типам и датам — показываются не только «плохие» события (отклонения и предупреждения), но и «хорошие» — восстановление работоспособности.
Так на графике выше виден всплеск по отклонениям: 10 событий зафиксированы в один день. Возможно, они произошли по одной причине. Кроме того, график показывает, что команда успешно справилась с большинством сбоев.
Аналитика событий по услугам показывает, как события в инфраструктуре влияют на бизнес и в каком состоянии находятся услуги.
Как интерпретировать:
- Топ-5 проблемных услуг — рейтинг формируется по числу инцидентов, созданных на основе событий, которые приходятся на каждую услугу за период.
- Динамика событий по услугам — в какие дни происходили события. Эти данные понадобятся для анализа причин.
На диаграмме выше видно, что первые места занимают услуги «Электронная почта» и «Телефония». По ним произошло больше всего событий. Судя по графику, значительная часть сбоев по услугам зафиксирована в один день. Известно, что в тот момент не работала услуга «Интернет». Скорее всего события по указанным услугам спровоцированы внешними факторами.
Аналитика событий по оборудованию показывает слабые места в инфраструктуре. Например, с каким оборудованием чаще всего возникают проблемы. С учетом дополнительных данных можно определить, какие поломки вызваны внешними факторами, а какие — перегрузками или износом оборудования.
Как интерпретировать:
- Топ-5 проблемного оборудования — рейтинг формируется по количеству негативных событий на оборудовании.
- Динамика событий — в какие дни зафиксированы события на оборудовании.
В совокупности диаграмма и график дают возможность сопоставить факты и проанализировать причины возникновения сбоев. Например, на графике выше видно, что в один день произошли проблемы на двух конфигурационных единицах. Известно, что в этот день зафиксирован скачок электричества, а значит, эти события могут быть ложными. Чтобы понять, так ли это, потребуется перейти в список событий.
Аналитика инцидентов показывает, по каким категориям оборудования чаще всего происходят инциденты и как команда успевает решать возникающие проблемы.
Как интерпретировать:
- Активные — сколько инцидентов в работе на текущий момент.
- Кончился запас времени — количество просроченных инцидентов.
- Всего зарегистрировано — число зафиксированных инцидентов.
- Решено, Решено с соблюдением SLA — статистика по количеству решенных инцидентов, в т.ч. в срок.
- Топ-5 услуг — по каким поддерживающим услугам, а по сути на оборудовании какого типа (серверном, сетевом и т.п.) чаще всего возникают сбои.
- Топ-5 внешних источников — в каких системах инфраструктурного мониторинга чаще всего фиксируются события.
Этот блок позволяет оценить соблюдение установленных регламентов обслуживания, а также увидеть, как справляется команда. На основе рейтинга «
Задача 4. Контроль работы ИТ-команды
В Naumen BSM доступна настройка дашбордов с подробной аналитикой по решению инцидентов.
Статистика по инцидентам мониторинга
Кому подойдет — для руководителей
Что выводится на дашборд — насколько эффективно команда решает поступающие инциденты.
Как интерпретировать:
- Решено, Просрочено — статистика по инцидентам позволяет оценить эффективность работы специалистов.
- Просроченные по месяцам — график помогает просматривать динамику по решению инцидентов. Например, растет или уменьшается количество (процент) просроченных инцидентов по сравнению с другими месяцами.
- Среднее время решения инцидентов по месяцам — сколько времени требуется специалисту на решение обращения в динамике.
- Среднее количество инцидентов на сотрудника в месяц — сколько обращений в среднем приходится на инженера.
Также на дашборд можно вывести, к примеру, источники инцидентов. Это позволило бы дополнительно оценить, сколько инцидентов зафиксировано автоматически системами мониторинга, а сколько поступило от операторов техподдержки через Service Desk.
Подобный дашборд нацелен на анализ эффективности работы, чтобы в опоре на данные оценить, нужно ли пересмотреть SLA, расширить штат, и как быстро сотрудники решают инциденты в принципе.
Главное
- Дашборды в Naumen BSM помогают одним сотрудникам получать оперативную информацию о доступности услуг, другим — аналитику о состоянии инфраструктуры и работе
ИТ-подразделения в целом. - Данные собираются онлайн на одном экране и в понятном виде.
- Фактически дашборд становится незаменимым источником информации для анализа различных ситуаций и принятия оперативных и стратегических решений, связанных с
ИТ-инфраструктурой .