Частые проблемы

Материал из Документация Ключ-АСТРОМ

Обнаружение частых проблем

В больших средах определенные аспекты системы могут постоянно вызывать ненужные оповещения, поскольку они относятся к несерьезным известным проблемам, не требующим вмешательства человека. Такой предупреждающий шум может исходить от некритичных компонентов или машин сборки с низким уровнем ресурсов, но не находящихся в критическом состоянии.

Чтобы уменьшить шум предупреждений и избежать рассылки спама, механизм причинно-следственных связей Ключ-АСТРОМ автоматически обнаруживает регулярно возникающие проблемы, возникающие из-за неоптимальных, хотя и приемлемых условий. Ключ-АСТРОМ обнаруживает такие частые проблемы путем анализа структуры проблем отслеживаемых объектов в течение определенных периодов наблюдения продолжительностью в один день и одну неделю.

Когда одна и та же проблема обнаруживается несколько раз в течение этих периодов, Ключ-АСТРОМ оценивает проблему на основе фактической серьезности нарушения порогового значения в сочетании с продолжительностью проблемы. Затем программа сравнивает серьезность и длительность прошлых предупреждений о проблемах для одного и того же объекта и выдает предупреждения только в том случае, если серьезность проблемы возросла. Следующая диаграмма иллюстрирует этот процесс.


Проблемы, которые менее серьезны и имеют меньшую продолжительность, чем предыдущие предупреждения, считаются частыми проблемами, и поэтому предупреждения для них подавляются. Подробнее о степени серьезности событий см. в разделе Типы событий.

Этот интеллектуальный подход к обнаружению и обработке частых проблем гарантирует, что вы будете получать оповещения о проблемах, которые со временем становятся все серьезнее, и одновременно избежите рассылки спама.

Страницы обзора объектов, подверженных частым проблемам, содержат сообщение о частой проблеме.

Оценка частых проблем

На приведенной ниже диаграмме показана классификация проблем.

  • Зеленый - это нормальное рабочее состояние.
  • Желтый - это событие, которое часто повторяется, но является нормальным для вашей системы. Это может быть, например, событие замедления работы диска, относящееся к устройству, не являющемуся критически важным. Эти события являются нездоровыми, но никаких предупреждений не требуется.
  • Красный - это событие, которое влияет на нормальную работу и вызывает предупреждение.
Oknok.png

Цель процесса оценки - классифицировать входящее событие как желтое или красное.

Процесс оценки независим для каждого типа событий и каждого объекта мониторинга. Он начинается с двух наборов исторических событий:

  • События за последние 24 часа
  • События за последние 7 дней

И выглядит следующим образом:

  1. 24-часовой набор сортируется двумя способами:
    • Продолжительность (от минимальной до максимальной)
    • Степень серьезности (от меньшей до более серьезной)
  2. Когда приходит новое событие, оно размещается в нужном месте в каждом из этих отсортированных наборов.
  3. Из каждого исходного отсортированного набора создается подмножество, состоящее из событий справа от нового события (то есть более продолжительных и серьезных).
  4. Создается набор ссылок, состоящий из событий, которые появляются в обоих этих двух подмножествах.
    1. Размер справочного набора рассчитывается как количество событий в справочном наборе.
    2. Продолжительность контрольного набора вычисляется как сумма длительностей событий в контрольном наборе.
  5. Тот же набор ссылок создается на основе набора, рассчитанного на 7 дней.
  6. Оцениваются следующие критерии:
    • Если размер 24-часового контрольного набора равен или больше 3, условие отображается желтым цветом. В противном случае оно отображается красным цветом.
    • Если продолжительность 24-часового контрольного набора равна или превышает 50% от 24 часов (12 часов = 720 минут = 43 200 секунд), условие отображается желтым цветом. В противном случае она отображается красным цветом.
    • Если размер установленного 7-дневного контрольного набора равен или больше 7, условие отображается желтым цветом. В противном случае оно отображается красным цветом.
    • Если продолжительность 7-дневного контрольного набора равна или превышает 30% от 7 дней (50,4 часа = 3,024 минуты = 181,440 секунды), условие отображается желтым цветом. В противном случае она отображается красным цветом.
  7. Если хотя бы одно условие разрешено как желтое, событие классифицируется как желтое. В противном случае оно классифицируется как красное и запускается оповещение.

После первоначальной оценки каждое желтое событие оценивается повторно с интервалом в 1 минуту, пока оно не сменится на красное или не будет деактивировано.


Для простоты в этом примере рассматривается только установленный 24-часовой интервал. В этом примере тип события - это потребление процессора на хосте.

Исторические события за последние 24 часа имеют следующую продолжительность и значение:

Событие 1-45 секунд, 95,5%

события2-15 секунд, 99%

события3-35 секунд, 98%

события4-30 секунд, 97%

события5-60 секунд, 96%


Отсортированные наборы выглядят следующим образом:

Продолжительность: {Событие2, Событие4, Событие3, событие1, Событие5}

Серьезность: {Событие1, Событие5, Событие4, Событие3, Событие2}

Поступает новое событие: Событие НОВОЕ -28 секунд, 95%. Оно занимает следующие позиции в отсортированных наборах:

Продолжительность: {Событие 2, СобытиеНОВОЕ, Событие4, Событие3, Событие1, Событие5}

Серьезность: {СобытиеНОВОЕ, Событие1, Событие5, Событие4, Событие3, Событие2}

Подмножества, состоящие из событий справа, выглядят следующим образом:

Продолжительность: {Событие4, Событие3, событие1, Событие5}

Серьезность: {Событие1, Событие5, Событие4, Событие3, Событие2}

Следующие события отображаются в обоих подмножествах и формируют набор ссылок: {Событие1, Событие3, Событие4, Событие5}.

Размер контрольного набора равен 4. Условие отображается желтым цветом.

Продолжительность контрольного набора составляет 170 секунд. Условие исправлено красным цветом.

Существует одно желтое условие, поэтому событие NEW классифицируется как желтое и не вызывает оповещения.