Выявление, изучение и устранение последствий проблем в приложении Проблемы

Материал из Документация Ключ-АСТРОМ

Быстрое выявление, изучение и устранение возникающих проблем является основной задачей оперативных групп. Приложение Проблемы поддерживает их, автоматически анализируя сложные проблемы, собирая весь контекст и представляя первопричину и последствия в едином представлении.

Приложение Проблемы, основано на данных Grail и ИИ. Анализ искусственного интеллекта помогает группам по эксплуатации и обеспечению надежности на объекте сократить среднее время ремонта (MTTR), представляя каждый аспект проблемы.

Цель и задача

В этом руководстве показано, как использовать приложение Проблемы для сортировки обнаруженных проблем и изучения их первопричин и последствий.

Целевая аудитория

Это руководство полезно для:

  • Инженеры по эксплуатации
  • Инженеры-трубопроводчики
  • Системные инженеры
  • Инженеры по надежности сайта (SREs)
  • Инженер по автоматизации систем

Предварительные требования

Вам необходимо установить Проблемы из Ключ-АСТРОМ Hub.

  1. В Ключ-АСТРОМ Hub выберите Проблемы.
  2. Нажмите на кнопку Установить.

Изучение и устранение активных проблем

Фокусировка и сортировка

По умолчанию в приложении Проблемы отображается:

  • Лента всех проблем за последние 2 часа. Чтобы помочь оперативным группам выявлять открытые проблемы, независимо от того, какой фильтр установлен, открытые проблемы остаются в верхней части ленты независимо от того, как долго они открыты.
  • Диаграмма проблем вверху отображает любое отклонение от нормы с большим количеством проблем в прошлом. Выберите пик на диаграмме, чтобы детализировать его и продолжить изучение.

Проблемы "".png

Фильтрация

Чтобы сосредоточиться на вашем домене и проблемах сортировки, которые его затрагивают, установите фильтры. Два наиболее распространенных фильтра — Состояние и Критичность – имеют выбираемые настройки слева от таблицы для быстрого доступа. Чтобы настроить другие фильтры, используйте панель фильтров над таблицей.

  • Состояние — Может быть Открытые проблемы или Закрытые проблемы.
    • Если этот параметр не установлен, будут перечислены все проблемы (открытые и закрытые).
    • Если вы выберете состояние в элементах управления слева, соответствующий фильтр также отобразится на панели фильтров.
  • Критичность— указывает характер инцидента, например, недоступность мониторинга, ошибки, проблемы, связанные с ресурсами, или проблемы с доступностью.
    • Если вы выберете одну или несколько категорий в элементах управления слева, соответствующие фильтры также отобразятся на панели фильтров.

Фильтрация с помощью панели фильтров позволяет сфокусировать ленту на проблемах на основе множества критериев, таких как статус, количество затронутых объектов, уровень воздействия и многое другое – наведите курсор на поле ввода, чтобы просмотреть все доступные параметры. Критерии фильтрации объединяются с помощью логики И. Для каждого критерия ИИ предоставляет список предлагаемых значений на основе вашей ленты проблем.

Например, чтобы просмотреть проблемы, возникающие из-за увеличения количества ошибок JavaScript и сохраняющиеся более 1 часа, используйте следующие критерии фильтрации:

  • Состояние=Открыто
  • Длительность отсортировать по убыванию
  • Критичность=Ошибки
  • Текст=JavaScript error rate increase

Автоматическое обновление

Чтобы всегда отслеживать поступающие проблемы, используется автообновление каждую 1 минуту.

Исследуйте и сравнивайте проблемы

Чтобы просмотреть подробную информацию о проблеме

  1. В таблице выберите идентификатор проблемы в столбце Проблема.
  2. Просмотрите страницу сведений.

На странице сведений о проблемах представлены все доступные сведения о проблеме.

Проблема123.png

Все объекты, затронутые проблемой, перечислены в разделе Затронутые объекты вместе с информацией о типе объекта и количестве событий, обнаруженных в ходе анализа.

  • В качестве начала исследования ИИ отмечает объект, который, по его мнению, является основной причиной проблемы.
  • Чтобы просмотреть подробные сведения о затронутом объекте, выберите его в таблице.

Изучение свойств событий для получения дополнительной информации

Ключ-АСТРОМ получает события из нескольких источников событий, таких как ЕдиныйАгент, Synthetic, extensions и ingestion API. Ключ-АСТРОМ принимает и понимает различные свойства (также называемые полями) этих событий, которые предоставляют дополнительную информацию о событии.

Источники событий можно настроить таким образом, чтобы они предоставляли информацию, необходимую для анализа и устранения проблем, вызванных событиями. Например, привязка конфигурации, которая обнаружила событие (dt.settings.schema_id и dt.settings.object_id), помогает быстро адаптировать пороговое значение или базовый уровень, если такое действие необходимо. Другие примеры мощных свойств включают:

  • Описание события (event.description). Описание события поддерживает текст в формате Markdown, что позволяет включать ссылки на ресурсы, которые могут помочь устранить проблему.
  • Запрос DQL для восстановления диаграммы событий в записной книжке или на панели мониторинга (query_string).
  • Связанные объекты (dt.entity.*).

Чтобы узнать больше о семантике и синтаксисе свойств событий и о том, как их можно использовать в Ключ-АСТРОМ, см. Семантический словарь.