Обнаружение частных проблем

Материал из Документация Ключ-АСТРОМ

В крупных средах определенные аспекты вашей системы могут постоянно вызывать оповещения, которые не нужны, поскольку связаны с несерьезными известными проблемами, не требующими вмешательства человека. Такой предупреждающий шум может исходить от некритических компонентов или компьютеров сборки с низким уровнем ресурсов, но не находящихся в критическом состоянии.

Чтобы уменьшить такой шум предупреждений и избежать спама предупреждений, механизм причинно-следственной связи Ключ-АСТРОМ AI автоматически обнаруживает регулярно возникающие проблемы, возникающие из-за неоптимальных, хотя и приемлемых условий. Ключ-АСТРОМ выявляет такие частые проблемы, просматривая шаблоны проблем отслеживаемых объектов в течение заданных периодов наблюдения в один день и одну неделю.

Когда одна и та же проблема обнаруживается несколько раз в течение этих периодов, Ключ-АСТРОМ оценивает проблему на основе фактической серьезности нарушения порогового значения в сочетании с продолжительностью проблемы. Затем он сравнивает серьезность и продолжительность прошлых предупреждений о проблемах для одного и того же объекта и выдает предупреждения только в том случае, если серьезность проблемы увеличилась. Следующая диаграмма иллюстрирует этот процесс.

Ocp1.png

В крупных средах определенные аспекты вашей системы могут постоянно вызывать оповещения, которые не нужны, поскольку связаны с несерьезными известными проблемами, не требующими вмешательства человека. Такой предупреждающий шум может исходить от некритических компонентов или компьютеров сборки с низким уровнем ресурсов, но не находящихся в критическом состоянии.

Чтобы уменьшить такой шум предупреждений и избежать спама предупреждений, механизм причинно-следственной связи Ключ-АСТРОМ AI автоматически обнаруживает регулярно возникающие проблемы, возникающие из-за неоптимальных, хотя и приемлемых условий. Ключ-АСТРОМ выявляет такие частые проблемы, просматривая шаблоны проблем отслеживаемых объектов в течение заданных периодов наблюдения в один день и одну неделю.

Когда одна и та же проблема обнаруживается несколько раз в течение этих периодов, Ключ-АСТРОМ оценивает проблему на основе фактической серьезности нарушения порогового значения в сочетании с продолжительностью проблемы. Затем он сравнивает серьезность и продолжительность прошлых предупреждений о проблемах для одного и того же объекта и выдает предупреждения только в том случае, если серьезность проблемы увеличилась. Следующая диаграмма иллюстрирует этот процесс.

Проблемы, которые менее серьезны и имеют более короткую продолжительность, чем предыдущие предупреждения, считаются частыми проблемами, поэтому предупреждения для них подавляются. Дополнительные сведения о серьезности событий см . в разделе Типы событий .

Этот интеллектуальный подход к обнаружению и устранению частых проблем гарантирует, что вы будете получать предупреждения о проблемах, серьезность которых со временем возрастает, и в то же время избегаете спама предупреждений.

На страницах обзора сущностей, с которыми возникают частые проблемы, есть сообщение о частых проблемах.

Оценка частых проблем

На приведенной ниже диаграмме показана классификация проблем.

  • Зеленый – нормальное рабочее состояние.
  • Желтый — это событие, которое часто повторяется, но является нормальным для вашей системы. Это может быть, например, событие медленного диска, связанное с некритичным устройством. Эти события являются неработоспособными, но оповещение не требуется.
  • Красный — это событие, которое влияет на нормальную работу и вызывает предупреждение.

Ocp2.png

Цель процесса оценки — классифицировать входящее событие как желтое или красное.

Процесс оценки является независимым для каждого типа события и каждого контролируемого объекта. Он начинается с двух наборов исторических событий:

  • События за последние 24 часа
  • События за последние 7 дней

И происходит следующим образом:

  1. 24-часовой набор сортируется двумя способами:
    • Продолжительность (от самой короткой до самой длинной)
    • Тяжесть (от менее до более тяжелой)
  2. Когда приходит новое событие, оно помещается в правильное положение в каждом из этих отсортированных наборов.
  3. Из каждого начального отсортированного набора создается подмножество, состоящее из событий справа от нового события (то есть более длинного и серьезного).
  4. Создается эталонный набор , состоящий из событий, которые появляются в обоих этих двух подмножествах.
    1. Размер эталонного набора рассчитывается как количество событий в эталонном наборе.
    2. Продолжительность эталонного набора вычисляется как сумма длительностей событий в эталонном наборе.
  5. Тот же эталонный набор создается из 7-дневного набора.
  6. Оцениваются следующие критерии:
    • Если размер 24-часового эталонного набора равен или больше 3 , условие разрешается желтым цветом. В противном случае он разрешается как красный.
    • Если продолжительность 24-часового эталонного набора равна или превышает 50 % от 24 часов (12 часов = 720 минут = 43 200 секунд), условие отображается желтым цветом. В противном случае он разрешается как красный.
    • Если размер 7-дневного эталонного набора равен или больше 7 , условие разрешается желтым цветом. В противном случае он разрешается как красный.
    • Если продолжительность эталонного набора за 7 дней равна или превышает 30 % от 7 дней (50,4 часа = 3 024 минуты = 181 440 секунд), условие отображается желтым цветом. В противном случае он разрешается как красный.
  7. Если хотя бы одно условие разрешается как желтое, событие классифицируется как желтое. В противном случае он классифицируется как красный и срабатывает предупреждение.

После первоначальной оценки каждое желтое событие оценивается снова с интервалом в 1 минуту, пока оно не станет красным или не будет деактивировано.

См. расширяемый раздел ниже для примера процесса оценки.

Пример

Для простоты в этом примере рассматривается только 24-часовой набор. В этом примере типом события является насыщение ЦП на узле.

Исторические события за последние 24 часа имеют следующую продолжительность и серьезность:

Событие 1 — 45 секунд, 95,5 %

Событие 2 — 15 секунд, 99 %

Событие 3 — 35 секунд, 98 %

Событие 4 — 30 секунд, 97 %

Событие 5 — 60 секунд, 96 %

Отсортированные наборы выглядят следующим образом:

Продолжительность: {Событие 2 , Событие 4 , Событие 3 , Событие 1 , Событие 5 }

Серьезность: {Событие 1 , Событие 5 , Событие 4 , Событие 3 , Событие 2 }

Прибывает новое событие: Событие НОВОЕ — 28 секунд, 95%. Он занимает следующие позиции в отсортированных множествах:

Продолжительность: {Событие 2 , Событие НОВОЕ , Событие 4 , Событие 3 , Событие 1 , Событие 5 }

Серьезность: { Событие НОВОЕ , Событие 1 , Событие 5 , Событие 4 , Событие 3 , Событие 2 }

Подмножества, состоящие из событий справа, выглядят так:

Продолжительность: {Событие 4 , Событие 3 , Событие 1 , Событие 5 }

Серьезность: {Событие 1 , Событие 5 , Событие 4 , Событие 3 , Событие 2 }

Следующие события появляются в обоих подмножествах и образуют эталонный набор: {Событие 1 , Событие 3 , Событие 4 , Событие 5 }.

Размер эталонного набора равен 4 . Состояние разрешается как желтый.

Длительность эталонного набора составляет 170 секунд. Состояние разрешается как красный.

Существует одно желтое состояние, поэтому событие НОВОЕ классифицируется как желтое и не вызывает оповещения.