Блог

Кардинальное изменение, которое должен осуществить каждый руководитель отдела ITOps, чтобы справиться с непрекращающимся потоком инцидентов

Громкие ИТ-инциденты становятся всё более частыми и серьёзными.

Один час простоя сервиса, приносящего доход, может стоить крупным предприятиям от 100 000 до 249 999 долларов. Даже эта цифра — взятая из аналитического отчета IDC — может оказаться заниженной, если учесть отток клиентов и потерю производительности. Кроме того, она не учитывает растущую нагрузку, которую управление инцидентами ложится на плечи специалистов по первоначальному реагированию.

«Один час простоя сервиса, приносящего доход, может стоить крупным предприятиям от 100 000 до 249 999 долларов… [и] не учитывает растущую нагрузку, которую управление инцидентами ложится на первых реагирующих».

Учитывая растущий объем инцидентов и сложность современных ИТ-инфраструктур, современное управление инцидентами требует подхода, основанного на искусственном интеллекте и автоматизации. Без него те, кто работает на передовой, подвергаются непрерывному потоку сбоев в нерабочее время. Это отнимает время, которое должно быть потрачено на отдых, усиливая выгорание и снижая устойчивость.

Однако многие организации по-прежнему полагаются на традиционное управление инцидентами, состоящее из ручных процессов, созданных для более простой и менее требовательной эпохи. В результате команды ИТ-операций (ITOps) вынуждены просеивать сложную ИТ-инфраструктуру в поисках первопричин и изнуряться, выполняя повторяющиеся задачи.

Результатом является увеличение времени реагирования, но если организации будут использовать машины для выполнения большей части тяжелой работы и ручного труда, они смогут значительно улучшить условия работы своих специалистов по реагированию. Команды ITOps должны внедрять ИИ и автоматизацию, чтобы идти в ногу с объемом современных инцидентов и сложностью ИТ-инфраструктуры.

Как модернизировать управление инцидентами с помощью ИИ и автоматизации

Рассмотрим следующие четыре метода, с помощью которых ИИ и автоматизация могут преобразовать рабочие процессы управления инцидентами:

1. Автоматизируйте повторяющиеся задачи реагирования с низким уровнем риска

Автоматизация сокращает время, необходимое для обнаружения, диагностики и устранения проблем, тем самым снижая затраты на управление инцидентами. Повторяющиеся задачи с низким уровнем риска для инцидентов SEV 1 или SEV 2 особенно хорошо подходят для автоматизации, включая автоматические оповещения, которые сокращают время реагирования за счет быстрого уведомления соответствующего эксперта, и автоматизированные руководства, которые предоставляют контекст, диагностику и анализ первопричин. Автоматизация также может запускать стандартные шаги по устранению неполадок, такие как перезапуск службы или очистка кэша.

Благодаря автоматическому отслеживанию ключевых показателей, таких как сэкономленное время или сокращение количества ошибок, менеджеры ITOps могут подготовить бизнес-обоснование для более широкого внедрения инициатив по автоматизации. Это особенно важно для создания импульса и получения поддержки со стороны высшего руководства.

2. Внедрение возможностей генеративного ИИ

Генеративный ИИ, или GenAI, отлично справляется с поиском и обобщением важной информации из разрозненных источников. Таким образом, он значительно экономит время специалистов по реагированию на инциденты в их повседневной работе, которое в противном случае могло бы уйти на просмотр журналов и показателей. Резюме сортировки инцидентов, включая предлагаемые пути расследования, предоставляют прибывающим специалистам знания, необходимые для немедленного начала работы. Они могут включать контекстную информацию из соответствующих предыдущих инцидентов, чтобы быстрее применять целевые исправления.

Другая контекстная информация, которую может извлечь GenAI, может включать недавние изменения, а также новые или обновленные руководства по действиям, которые служат живой базой знаний для будущих специалистов по реагированию. Команды также могут использовать GenAI для автоматического создания отчетов по итогам инцидентов на основе соответствующих стенограмм чатов, журналов, действий и других данных. В совокупности эти возможности позволяют раскрыть данные из корпоративных «силосов» и преобразовать их в четкую повествовательную структуру для улучшения коммуникации и принятия решений.

3. Использование AI-агентов для повышения проактивности

AI-агенты также меняют правила игры для руководителей ITOps, самостоятельно выполняя задачи для достижения конкретных целей, что позволяет членам команды перейти на более высокий уровень в цепочке создания ценности. В то время как чат-боты GenAI генерируют и обобщают контент на основе подсказок, агенты работают независимо, выполняя целые рабочие процессы.

Они могут проактивно обрабатывать повторяющиеся задачи и рутинные инциденты, выполняя поиск по руководствам, извлекая ключевую информацию из соответствующих инструментов, оценивая предыдущие инциденты и рекомендуя меры по устранению неполадок. Важно, что агенты выходят за рамки логики «если-то» и выбирают правильное действие из нескольких возможных вариантов на основе исторического и текущего контекста. Это означает, что ITOps может работать быстрее, а у членов команды появляется больше времени, чтобы сосредоточиться на принятии стратегических решений и решении проблем.

Прежде чем агенты ИИ смогут раскрыть весь свой потенциал, руководители должны установить строгие ограничения, чтобы минимизировать риски и держать людей в курсе дел в сложных или высокорисковых случаях.

4. Использование агентов ИИ для управления операционной логистикой

Организации также могут улучшить координацию, применяя агентов ИИ для управления операционной логистикой. Делегируя задачи агентам, специалисты по реагированию могут уделять больше времени и усилий устранению инцидентов, а не ручной координации между командами. Эти задачи могут включать составление кратких отчетов и обновлений статуса для заинтересованных сторон, вывод операционных данных в канал инцидента, ведение протоколов во время конференц-связи по инциденту и организацию рабочих процессов.

Агенты ИИ также могут динамически распределять инциденты между наиболее подходящими экспертами в данной области. Встраивая эти возможности непосредственно в коммуникационные инструменты, такие как Slack, команды могут координировать и устранять инциденты более эффективно, не переключаясь с одной задачи на другую.

Обеспечение устойчивости изменений

Современное управление инцидентами должно идти в ногу со сложной, постоянно работающей инфраструктурой и непрекращающимся потоком инцидентов. Оптимизация для более быстрого обнаружения, более разумной приоритезации и упрощенного устранения проблем теперь имеет решающее значение. Управление инцидентами с помощью ИИ и автоматизации делает это возможным, сокращая шум и трудоемкость, улучшая процесс принятия решений и помогая командам реагировать быстрее и с большей уверенностью.

Подписывайтесь на наш канал в Телеграм

Подписаться