5 лучших практик по автоматизации управления крупными инцидентами

Автор: Roger Morrison
Дата создания: 27 Сентябрь 2021
Дата обновления: 1 Июль 2024
Anonim
Клуб CDO. Тигран Саркисов, CDO, Х5 Retail Group: "Качество данных и data governance: опыт X5"
Видео: Клуб CDO. Тигран Саркисов, CDO, Х5 Retail Group: "Качество данных и data governance: опыт X5"

Содержание



Источник: Pixtum / iStockphoto

вынос:

С помощью интеллектуальной стратегии автоматизации вы можете быстрее и проще реагировать на инциденты, сводя к минимуму время простоя и потенциальные нарушения безопасности.

Крупные ИТ-инциденты происходят внутри компаний каждый день. Заголовки заголовков освещают лишь немногие, но такие события, как перебои в работе и нарушения безопасности, могут серьезно подорвать производительность сотрудников, негативно повлиять на восприятие клиентов и, самое главное, привести к потере прибыли.

Поэтому, когда речь идет об управлении крупными ИТ-инцидентами, лучше всего сосредоточиться на влиянии на бизнес и на итоговые результаты. По данным института Ponemon, средняя стоимость простоя в 2016 году составила 8 851 долл. США в минуту, то есть более 500 000 долл. США в час, а обычное время простоя составляет в среднем более 90 минут. И это только непосредственная стоимость! Долгосрочные последствия, такие как ущерб репутации и истощение клиентов, непредсказуемы и потенциально катастрофичны.


Хотя вы не можете полностью избежать всех серьезных инцидентов, вы можете подготовить свою организацию к тому, чтобы быть как можно более готовым к их решению в случае их возникновения. И основным компонентом вашей стратегии должно быть включение автоматизации. Организации, которые максимально используют автоматизацию в своих процессах разрешения основных инцидентов, достигают более быстрого восстановления обслуживания и гораздо меньше ошибок из-за человеческих ошибок. Это связано с тем, что автоматизация напрямую влияет на вашу способность сократить продолжительность окна влияния на бизнес - или тот дорогостоящий период, в течение которого ваши пользователи и бизнес-операции действительно ощущают влияние инцидента. (Чтобы узнать больше об автоматизации, см. Автоматизация: будущее науки о данных и машинного обучения?)

Чтобы максимизировать преимущества автоматизации, вы должны изучить, какие действия необходимо выполнить во время окна воздействия, и выяснить, как перенести все другие действия либо до начала инцидента, либо после того, как бизнес вернулся к нормальной работе. Вот пять полезных способов начать.


1. Разработайте и определите процесс

Определение процесса управления крупными инцидентами - это точное определение того, что может быть запланировано, скоординировано или выполнено во время инцидента. Это может означать, например, определение ключевых членов группы поддержки по квалификационному набору и расписанию, чтобы ваша служба поддержки могла привлечь их как можно быстрее и эффективнее. Это также означает выяснение того, как вы будете передавать соответствующую информацию своей команде, чтобы они могли сразу же приступить к решению проблемы, а также информирование и обновление нужных заинтересованных сторон.

Автоматизация имеет решающее значение для ключевых аспектов этого процесса. Например, вы можете автоматизировать включение соответствующей информации из ваших инструментов мониторинга в свои билеты службы поддержки или включить информацию из службы поддержки в уведомления для лиц, решающих инциденты. Вы также можете документировать весь инцидент в единый источник всеобъемлющей правды, доступной для всех. Помните, что вы можете попрактиковаться в этом процессе, чтобы понять его правильно - вам не нужно ждать реального инцидента, чтобы проверить ваш подход.

2. Получите вашу инфраструктуру правильно

В этот день и век усталости от тревоги очень важно, чтобы вы не продолжали бомбардировать свои команды нерелевантными уведомлениями и информацией, которая к ним не относится. Применение фильтров для ваших предупреждений о мониторинге позволит вашим командам легче сосредоточиться на иголке в стоге рутинного шума. Это ключ к тому, чтобы все ваши идеи и данные были действительно действенными, а не просто к перегрузке информацией.

Хорошие способы автоматизации включают использование решения APM для обхода всех ваших приложений и систем с целью заблаговременного выявления первопричин в момент снижения производительности до того, как возникнут серьезные перебои в обслуживании. Вы также можете интегрировать мониторинг, службу поддержки, приложения для совместной работы и инструменты чата, чтобы обмениваться информацией в режиме реального времени.

Нет ошибок, нет стресса - ваше пошаговое руководство по созданию изменяющего жизнь программного обеспечения без разрушения вашей жизни

Вы не можете улучшить свои навыки программирования, когда никто не заботится о качестве программного обеспечения.

3. Точно измерить MTTR

Как вы измеряете среднее время ремонта (MTTR)? Вы основываете это на общем времени, в котором заняты ИТ-команды, или на общем времени, на которое реально влияет бизнес? Если ваш ответ - первый, вам следует пересмотреть измерение окна воздействия, используя вместо этого бизнес-перспективу. Это гораздо более точная мера для ваших усилий по оптимизации, потому что ваша цель состоит в том, чтобы минимизировать влияние инцидентов, а не просто представлять лучшие отчеты об ответах на вашу доску. (Чтобы узнать больше о времени простоя и о том, как оно решается, посмотрите, что на самом деле означает среднее время между сбоями.)

Вы можете автоматизировать работу, предоставляя полную информацию о приложениях, чтобы при необходимости задним числом «запускать часы», и сохранять полную запись ваших действий по разрешению и сообщений для анализа и аудита для улучшения ваших процессов.

4. Держите заинтересованных сторон в курсе - но без прерывания решения

Заинтересованные стороны ожидают эффективной и своевременной связи, а также ожидают, что отраслевые эксперты будут сосредоточены на устранении проблем. Хотя вы можете назначить контактную точку для мониторинга и привлечения бизнес-пользователей, более эффективной стратегией будет создание веб-страницы самообслуживания с обновлениями статуса. Это дает возможность заинтересованному лицу проверить себя, не подвергая свою команду дополнительным вызовам и с. Просто не забывайте регулярно обновлять ваши заинтересованные стороны, чтобы они всегда получали и знали, что ожидать, последний отчет о состоянии. Не забывайте, что общение не должно прерываться просто потому, что сервис восстановлен! Важные заинтересованные стороны получают сводку о том, что произошло, что узнали, и как можно предотвратить ситуацию в будущем.

Автоматизация в этом случае может быть реализована для создания автоматической страницы статуса в режиме реального времени для заинтересованных сторон, а также для добавления команд косой черты в инструмент чата для обновления этой страницы.

5. Сбор данных для поддержки управления проблемами

Восстановление службы не означает конец управления инцидентами! На самом деле, некоторые из наиболее ценных действий происходят после принятия резолюции. Собирая диагностические данные и данные о воздействии и выполняя анализ первопричин, вы можете выполнить полный аудит крупного инцидента, который включает в себя принятие превентивных мер, чтобы избежать подобных инцидентов в будущем. Кроме того, даже если распознаваемый инцидент повторяется снова, вы можете создать определенную процедуру для того, какие типы данных вам нужно собрать, и какие шаги необходимо предпринять для определения разрешения. Таким образом, ваша команда просто должна обратиться к контрольному списку и сосредоточиться на своей основной цели восстановления обслуживания, а не беспокоиться о том, что им нужно и когда.

Автоматизация может собирать и сохранять действия по разрешению, включая такие вещи, как стенограммы чата, в единой системе записи для анализа. Кроме того, он поможет вам создать каталог знакомых инцидентов или проблем, закрепить лучшие практики для каждого из них и, следовательно, повысить скорость разрешения в будущем.

В заключение: автоматизируйте умнее, не более

Имейте в виду, что больше автоматизации не обязательно лучший подход! Более важно, чтобы вы понимали, когда, где и как соединять свои ИТ-системы для поддержки управления инцидентами. Вы не хотите добавлять ненужную сложность ради увеличения автоматизированных процессов. Помните, что цель состоит в том, чтобы максимально упростить и консолидировать операции, чтобы дать вашим командам возможность эффективно решать проблемы. Речь идет об интеллектуальном внедрении автоматизации для обеспечения хорошо скоординированного набора процессов, квалифицированного персонала и эффективной коммуникации с заинтересованными сторонами, чтобы минимизировать общее влияние крупных инцидентов на бизнес.