Анализ проблем

Материал из Документация Ключ-АСТРОМ

Проблемы в система Ключ-АСТРОМ представляют собой аномалии нормального поведения или состояния. Такими аномалиями могут быть, например, медленный отклик службы или процесс входа пользователя в систему. Всякий раз, когда обнаруживается проблема, система Ключ-АСТРОМ выдает конкретное событие проблемы, указывающее на такую аномалию.

Выявленные проблемы позволяют понять их глубинные причины. Для выявления первопричин проблем система Ключ-АСТРОМ использует контекстно-зависимый подход, который обнаруживает взаимозависимые события во времени, процессах, хостах, службах, приложениях, а также с точки зрения вертикального и горизонтального топологического мониторинга. Только с помощью такого контекстно-ориентированного подхода возможно точно определить истинные первопричины проблем. По этой причине недавно обнаруженные аномальные события в вашей среде не обязательно приведут к немедленному возникновению новой проблемы.

  • Событие против проблемы

События представляют собой различные типы отдельных обнаруженных аномалий, таких как нарушения пороговых значений показателей, ухудшение базовых показателей или события на определенный момент времени, такие как сбои процессов. Система Ключ-АСТРОМ также обнаруживает и обрабатывает информационные события, такие как развертывание нового программного обеспечения, изменения конфигурации и другие типы событий.

Проблема может возникнуть в результате одного или нескольких событий, что часто бывает в сложных средах. Чтобы предотвратить поток, казалось бы, несвязанных предупреждений о проблемах при связанных событиях в таких средах, Davis® Искусственный интеллект связывает все события, имеющие одну и ту же первопричину, в единую отслеживаемую проблему. Такой подход предотвращает рассылку спама по событиям и предупреждениям.

Проблемы имеют определенный срок службы и обновляются в режиме реального времени со всеми поступающими событиями и результатами. Как только проблема обнаружена, она отображается в вашей ленте проблем.

Обнаружение проблем

Система Ключ-АСТРОМ постоянно измеряет уровни входящего трафика в соответствии с установленными пороговыми значениями, чтобы определить, когда обнаруженное замедление или увеличение частоты ошибок оправдывает генерацию нового проблемного события. Быстро увеличивающееся время отклика приложений и служб оценивается на основе скользящих 5-минутных интервалов времени. Медленно уменьшающееся время отклика оценивается на основе 15-минутных интервалов времени.

Понимание пороговых значений

Система Ключ-АСТРОМ использует два типа пороговых значений:

  • Автоматизированные базовые показатели: при многомерном базовом анализе автоматически определяются отдельные эталонные значения, которые со временем меняются. Автоматические базовые эталонные значения используются для учета динамических изменений во времени отклика вашего приложения или службы, частоте ошибок и нагрузке.
  • Обнаружение аномалий: Система Ключ-АСТРОМ автоматически обнаруживает аномалии производительности, связанные с инфраструктурой, такие как высокая загруженность процессора и перебои в работе памяти.

Методология, используемая для создания событий с автоматическим выделением базовых значений, полностью отличается от метода обнаружения аномалий. Обнаружение аномалий предлагает простой и понятный подход к определению базовых показателей, который работает немедленно, не требуя периода обучения. Мы не рекомендуем обнаруживать аномалии хоста из-за следующих ограничений:

  • Для определенных методов обслуживания или действий пользователя требуется слишком много ручной настройки.
  • Сложность установки пороговых значений для динамических сервисов.
  • Неспособность адаптироваться к меняющимся условиям.

Предпочтительный автоматизированный, многомерный подход к базовому определению работает сразу, без ручной настройки пороговых значений. Самое главное, он автоматически адаптируется к изменениям в структуре трафика.

Обратите внимание, что система Ключ-АСТРОМ позволяет вам регулировать чувствительность обнаружения проблем либо путем адаптации пороговых значений, либо путем отклонения от автоматизированных базовых показателей.

Анализ проблемы

После обнаружения проблемы вы можете напрямую проанализировать ее влияние на странице обзора проблемы. Система Ключ-АСТРОМ предлагает анализ воздействия как для пользователей, так и для бизнеса. На странице обзора проблемы также представлен анализ первопричин.

Анализ первопричин

Чтобы определить первопричину проблемы, Система Ключ-АСТРОМ использует контекстно-зависимый подход для обнаружения взаимозависимых событий во времени, процессах, хостах, службах, приложениях, а также с точки зрения вертикального и горизонтального топологического мониторинга.

Следующий сценарий связан с проблемой, основной причиной которой является снижение производительности на уровне инфраструктуры.

Проблемы2.png

  1. Система Ключ-АСТРОМ обнаруживает нарушение производительности на уровне окружения. Для отслеживания создается новая проблема, и уведомление отправляется через мобильное приложение Ключ-АСТРОМ.
  2. Через несколько минут проблема с окружением приводит к появлению проблемы снижения производительности в одной из служб приложения.
  3. Начинают появляться дополнительные проблемы снижения производительности на уровне сервиса. Итак, то, что начиналось как проблема только изолированной инфраструктуры, переросло в серию проблем на уровне сервиса, первопричина каждой из которых кроется в исходной проблеме на уровне окружения.
  4. Со временем проблемы на уровне сервиса начинают влиять на пользовательский опыт ваших клиентов, которые взаимодействуют с вашим приложением через настольные или мобильные браузеры. На данном этапе жизненного цикла проблемы у вас есть проблема приложения с одной первопричиной на уровне окружения и дополнительными первопричинами на уровне сервиса.
  5. Поскольку система Ключ-АСТРОМ понимает все зависимости в вашей среде, она соотносит проблему снижения производительности, с которой сталкиваются ваши клиенты, с исходной проблемой производительности на уровне окружения, тем самым способствуя быстрому решению проблемы.

Повторяющиеся проблемы

Когда искусственный интеллект Davis обнаруживает несколько проблем, возникающих с интервалом в 30 минут одна за другой и имеющих одну и ту же первопричину, проблемы идентифицируются как дубликаты.

  • Когда это происходит до отображения проблем в веб-интерфейсе Ключ-АСТРОМ, проблемы объединяются в единую проблему.
  • Если проблемы идентифицируются как дубликаты после их отображения в веб-интерфейсе Ключ-АСТРОМ, система Ключ-АСТРОМ назначит одну из них основной и скроет повторяющиеся проблемы. Обратные ссылки на проблемы по-прежнему работают для скрытых повторяющихся проблем. Страницы скрытых повторяющихся проблем отображают сообщение Это дубликат [идентификатор проблемы] и содержат ссылку на основную проблему.

Оповещение о проблемах

При обнаружении аномалии Ключ-АСТРОМ может сгенерировать оповещение, уведомляющее ответственных членов команды о существовании проблемы. Система Ключ-АСТРОМ позволяет настроить детализированные правила фильтрации предупреждений, основанные на серьезности, влиянии на клиента, связанных тегах и / или продолжительности обнаруженных проблем. Эти правила, по сути, позволяют вам определить профиль оповещения о проблеме. С помощью профилей оповещений вы также можете настроить отфильтрованные интеграции уведомлений о проблемах со сторонними системами обмена сообщениями, такими как Slack, HipChat и PagerDuty.