Частые проблемы
Применение Ключ-АСТРОМ / ИИ/ Частые проблемы
Обнаружение частых проблем
В больших средах определенные аспекты системы могут постоянно вызывать ненужные оповещения, поскольку они относятся к несерьезным известным проблемам, не требующим вмешательства человека. Такой предупреждающий шум может исходить от некритичных компонентов или машин сборки с низким уровнем ресурсов, но не находящихся в критическом состоянии.
Чтобы уменьшить шум предупреждений и избежать рассылки спама, механизм причинно-следственных связей Ключ-АСТРОМ автоматически обнаруживает регулярно возникающие проблемы, возникающие из-за неоптимальных, хотя и приемлемых условий. Ключ-АСТРОМ обнаруживает такие частые проблемы путем анализа структуры проблем отслеживаемых объектов в течение определенных периодов наблюдения продолжительностью в один день и одну неделю.
Когда одна и та же проблема обнаруживается несколько раз в течение этих периодов, Ключ-АСТРОМ оценивает проблему на основе фактической серьезности нарушения порогового значения в сочетании с продолжительностью проблемы. Затем программа сравнивает серьезность и длительность прошлых предупреждений о проблемах для одного и того же объекта и выдает предупреждения только в том случае, если серьезность проблемы возросла. Следующая диаграмма иллюстрирует этот процесс.
Проблемы, которые менее серьезны и имеют меньшую продолжительность, чем предыдущие предупреждения, считаются частыми проблемами, и поэтому предупреждения для них подавляются. Подробнее о степени серьезности событий см. в разделе Типы событий.
Этот интеллектуальный подход к обнаружению и обработке частых проблем гарантирует, что вы будете получать оповещения о проблемах, которые со временем становятся все серьезнее, и одновременно избежите рассылки спама.
Страницы обзора объектов, подверженных частым проблемам, содержат сообщение о частой проблеме.
Оценка частых проблем
На приведенной ниже диаграмме показана классификация проблем.
- Зеленый - это нормальное рабочее состояние.
- Желтый - это событие, которое часто повторяется, но является нормальным для вашей системы. Это может быть, например, событие замедления работы диска, относящееся к устройству, не являющемуся критически важным. Эти события являются нездоровыми, но никаких предупреждений не требуется.
- Красный - это событие, которое влияет на нормальную работу и вызывает предупреждение.
Цель процесса оценки - классифицировать входящее событие как желтое или красное.
Процесс оценки независим для каждого типа событий и каждого объекта мониторинга. Он начинается с двух наборов исторических событий:
- События за последние 24 часа
- События за последние 7 дней
И выглядит следующим образом:
- 24-часовой набор сортируется двумя способами:
- Продолжительность (от минимальной до максимальной)
- Степень серьезности (от меньшей до более серьезной)
- Когда приходит новое событие, оно размещается в нужном месте в каждом из этих отсортированных наборов.
- Из каждого исходного отсортированного набора создается подмножество, состоящее из событий справа от нового события (то есть более продолжительных и серьезных).
- Создается набор ссылок, состоящий из событий, которые появляются в обоих этих двух подмножествах.
- Размер справочного набора рассчитывается как количество событий в справочном наборе.
- Продолжительность контрольного набора вычисляется как сумма длительностей событий в контрольном наборе.
- Тот же набор ссылок создается на основе набора, рассчитанного на 7 дней.
- Оцениваются следующие критерии:
- Если размер 24-часового контрольного набора равен или больше 3, условие отображается желтым цветом. В противном случае оно отображается красным цветом.
- Если продолжительность 24-часового контрольного набора равна или превышает 50% от 24 часов (12 часов = 720 минут = 43 200 секунд), условие отображается желтым цветом. В противном случае она отображается красным цветом.
- Если размер установленного 7-дневного контрольного набора равен или больше 7, условие отображается желтым цветом. В противном случае оно отображается красным цветом.
- Если продолжительность 7-дневного контрольного набора равна или превышает 30% от 7 дней (50,4 часа = 3,024 минуты = 181,440 секунды), условие отображается желтым цветом. В противном случае она отображается красным цветом.
- Если хотя бы одно условие разрешено как желтое, событие классифицируется как желтое. В противном случае оно классифицируется как красное и запускается оповещение.
После первоначальной оценки каждое желтое событие оценивается повторно с интервалом в 1 минуту, пока оно не сменится на красное или не будет деактивировано.
Для простоты в этом примере рассматривается только установленный 24-часовой интервал. В этом примере тип события - это потребление процессора на хосте.
Исторические события за последние 24 часа имеют следующую продолжительность и значение:
Событие 1-45 секунд, 95,5%
события2-15 секунд, 99%
события3-35 секунд, 98%
события4-30 секунд, 97%
события5-60 секунд, 96%
Отсортированные наборы выглядят следующим образом:
Продолжительность: {Событие2, Событие4, Событие3, событие1, Событие5}
Серьезность: {Событие1, Событие5, Событие4, Событие3, Событие2}
Поступает новое событие: Событие НОВОЕ -28 секунд, 95%. Оно занимает следующие позиции в отсортированных наборах:
Продолжительность: {Событие 2, СобытиеНОВОЕ, Событие4, Событие3, Событие1, Событие5}
Серьезность: {СобытиеНОВОЕ, Событие1, Событие5, Событие4, Событие3, Событие2}
Подмножества, состоящие из событий справа, выглядят следующим образом:
Продолжительность: {Событие4, Событие3, событие1, Событие5}
Серьезность: {Событие1, Событие5, Событие4, Событие3, Событие2}
Следующие события отображаются в обоих подмножествах и формируют набор ссылок: {Событие1, Событие3, Событие4, Событие5}.
Размер контрольного набора равен 4. Условие отображается желтым цветом.
Продолжительность контрольного набора составляет 170 секунд. Условие исправлено красным цветом.
Существует одно желтое условие, поэтому событие NEW классифицируется как желтое и не вызывает оповещения.