События селектора метрик

Материал из Документация Ключ-АСТРОМ
Версия от 13:59, 5 сентября 2024; ENetrebin (обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Применение Ключ-АСТРОМ / Алертинг / События селектора метрик

Селектор метрик — это мощный инструмент для указания того, какие данные вы хотите прочитать для оценки метрического события. Он предоставляет вам две основные возможности:

  • Метрические преобразования для преобразования данных, которые вы считываете.
  • Метрические выражения для объединения одной или нескольких метрик в другой результат с использованием простой математики.

С помощью селектора метрики ИИ может получить доступ к истории данным метрики и может изучить нормальное поведение вашей среды, что позволяет вам использовать автоадаптивные пороги в вашем событии метрики. Однако применяются некоторые ограничения:

  • 100 000 контролируемых метрических измерений для каждой среды
  • 10 000 конфигураций событий метрик (как ключ метрик, так и селектор метрик) на среду
  • 1000 контролируемых измерений на конфигурацию метрического события (статический или автоматически адаптивный порог)
  • 500 отслеживаемых измерений на конфигурацию метрического события (сезонная базовая линия)
  • 100 селекторов метрик на стратегию мониторинга. Вы можете иметь 100 конфигураций с автоадаптивным порогом и 100 со статическим порогом.

Область действия событий селектора метрик

Сам селектор определяет область действия события селектора метрик. Важно понимать последствия при настройке селектора, состоящего из измерений из тысяч отдельных источников. Ключ-АСТРОМ применяет пределы безопасности к обнаружению аномалий с точки зрения количества метрических измерений, которые могут наблюдаться в одной среде мониторинга, чтобы избежать любых проблем.

335.png

Объединение метрик

Используя возможности метрического выражения, вы можете реализовать оповещения с обзором ситуации сверху вниз, а не оповещения по каждому компоненту.

Например, вы можете наблюдать шаблоны журналов на нескольких хостах. Вычисляя общее количество наблюдаемых шаблонов журналов по всем соответствующим файлам журналов, Dynatrace может обнаруживать аномалии шаблонов в накопленном потоке журналов, а не по отдельным счетчикам на файл журнала. Если есть разреженные счетчики по многим сущностям (например, счетчик ошибок по нескольким процессам одного типа), агрегированное обнаружение аномалий сверху вниз гораздо более устойчиво к ложноположительным оповещениям, чем обнаружение по отдельному счетчику ошибок на процесс.

Создать событие выбора метрики

  1. Перейдите в Настройки > Обнаружение аномалий > События метрики и выберите Добавить событие метрики.
  2. В поле Сводка дайте краткое содержательное описание события.
  3. В разделе Определение запроса настройте запрос метрики:
    1. Выберите тип - селектор метрики запроса.
    2. Укажите необходимый селектор метрик.
  4. Выберите зону управления. Только данные, поступающие из этой зоны, оцениваются для события метрики. Пропустите это поле, чтобы использовать все данные, запрошенные селектором метрики.
  5. необязательный В разделе Расширенное определение запроса укажите смещение запроса (в минутах). Смещение необходимо для метрик с задержкой; в противном случае событие метрики может выдавать ложные оповещения.
  6. Определить стратегию мониторинга
    1. Выберите тип модели:
      • Автоматически адаптивный порог — Ключ-АСТРОМ автоматически вычисляет порог и динамически адаптирует его к поведению вашей метрики.
      • Статический порог — порог, который не меняется со временем.
      • Сезонная базовая линия — Ключ-АСТРОМ создает доверительный диапазон на основе метрики с сезонными закономерностями.
    2. Для статического порога укажите порог. Выберите Использовать предложенное пороговое значение , чтобы использовать значение на основе предыдущих данных.
    3. Выберите поведение оповещения об отсутствии данных . Если оповещение об отсутствии данных включено, оно объединяется с пороговым условием с помощью логики ИЛИ .
    4. Выберите условие оповещения: оповещение, если показатель выше, ниже или за пределами порогового значения.
    5. необязательный В разделе Расширенные свойства модели укажите скользящее окно для сравнения. Скользящее окно определяет, как часто пороговое значение — автоматически рассчитанное или указанное вручную — должно быть нарушено в течение скользящего окна времени, чтобы вызвать событие (нарушения не обязательно должны быть последовательными). Это поможет вам избежать чрезмерно агрессивного оповещения об отдельных нарушениях. Вы можете задать скользящее окно до 60 минут.
  7. Проверьте предпросмотр оповещений и оцените эффективность вашей конфигурации.
    1. Выберите значения измерений, которые вы хотите видеть в окне предварительного просмотра.
    2. Выберите временные рамки предварительного просмотра. Вы можете получать оповещения на один, три или семь дней.
  8. Укажите заголовок для вашего события. Заголовок должен быть короткой, легко читаемой строкой, описывающей ситуацию, например, High network activity или CPU saturation.
  9. В разделе Описание создайте содержательное сообщение о событии. Сообщения о событиях помогут вам понять природу события. Вы можете использовать следующие заполнители:
    • {alert_condition}— состояние оповещения (выше/ниже порога).
    • {baseline}— нарушенное значение базовой линии.
    • {dims}— список всех измерений (и их значений) метрики, нарушившей порог. Вы также можете указать конкретное измерение: {dims:dt.entity.<entity>}. Чтобы получить список доступных измерений для вашей метрики, запросите ее с помощью запроса GET metric descriptor .
    • {entityname}— наименование пострадавшего субъекта.
    • {metricname}— название метрики, нарушившей порог.
    • {missing_data_samples}— количество образцов с отсутствующими данными. Доступно только если включено оповещение об отсутствующих данных.
    • {severity}—серьёзность события.
    • {threshold}— нарушенное значение порога.
  10. Выберите тип события для инициируемых событий.
  11. Включите или выключите разрешение объединения , чтобы определить стратегию слияния для вызванных событий. Если разрешение объединения включен, ИИ попытается объединить это событие с существующими проблемами; если он выключен, каждый раз возникает новая проблема.
  12. необязательный Установите дополнительные свойства «ключ-значение», которые будут прикреплены к событию.
  13. Выберите Сохранить изменения .