Мониторинг F5 BIG-IP LTM

Материал из Документация Ключ-АСТРОМ

Узнайте о настройке, развертывании и работе с данными F5 BIG-IP LTM Extension.

Прежде чем вы начнете

Убедитесь, что на указанном вами АктивныйШлюз активен и работает модуль Extensions 2.0.

  1. В меню Ключ-АСТРОМ выберите Статус развертывания > АктивныйШлюз и разверните сведения о назначенном АктивныйШлюз.
  2. В разделе «Свойства» убедитесь, что АктивныйШлюз назначен группе .
  3. В разделе «Модули» убедитесь, что модуль «Расширения 2.0» включен.

Если какое-либо из этих свойств необходимо изменить, см. Конфигурационные свойства и параметры АктивныйШлюз .

Примечание . Любые изменения, сделанные с помощью файлов конфигурации АктивныйШлюз, требуют перезапуска служб АктивныйШлюз и Extensions Execution Controller (EEC).

Развертывание расширения

  1. В меню Ключ-АСТРОМ выберите Расширения . Найдите плитку F5 BIG-IP LTM в Ключ-АСТРОМ Extensions 2.0, которую вы можете добавить в раздел своей среды.
  2. Выберите плитку, затем выберите Добавить в среду .

Конфигурация мониторинга

  1. Убедитесь, что ожидаемая версия отображается в списке Версии внизу страницы.
  2. Добавьте конфигурацию мониторинга, выбрав Добавить конфигурацию мониторинга .

Определить устройства

Выберите Добавить устройство, чтобы определить устройства, с которых вы хотите получать данные, и предоставить сведения о подключении устройства:

  • IP-адрес или имя устройства
  • Порт
  • Версия SNMP и соответствующие данные аутентификации

Группа АктивныйШлюз

Выберите группу АктивныйШлюз, чтобы определить, какие АктивныйШлюз будут запускать расширение. Когда закончите, выберите Следующий шаг .

Настроить мониторинг

Следующим шагом в активации расширения является настройка мониторинга. См. полный список наборов функций и собранных показателей .

Фильтры соответствуют именам сущностей, чтобы включать/исключать экземпляры из мониторинга. Это делает данные более актуальными и экономит ненужное потребление лицензий. Фильтры работают с определенным типом объекта и поддерживают следующий синтаксис:

  • $eq(<str>)- проверьте, <str>соответствует ли то, что вы фильтруете
  • $prefix(...)– надо начинать с…
  • $suffix(...)- должно заканчиваться …
  • $contains(...)- должен содержать …
  • $and(<expr1>, <expr2>)- может использоваться для объединения двух или более приведенных выше выражений с оператором И.
  • $or(<expr1>, <expr2>)– может использоваться для объединения двух или более приведенных выше выражений с оператором ИЛИ.
  • $not(<expr>)- может использоваться для отрицания выражения

Например, чтобы исключить все пулы из общего раздела, вы можете добавить фильтр:$not($prefix(/Common/))

Последним шагом является выбор Activate , который передаст АктивныйШлюз конфигурацию мониторинга вместе с расширением, определяющим, как собираются данные.

Визуализация данных и конфигурация

Расширение поставляется с обзорной панелью мониторинга, которая публикуется, как только вы добавляете ее в свою среду. Перейдите в Dashboards и найдите предустановленную панель под названием F5 BIGIP LTM Overview .

На панели инструментов представлен обзор основных компонентов платформы, а также ярлыки для списков различных типов объектов (в разделе « Переход к объектам F5 »). В настоящее время это самый быстрый способ перехода к спискам сущностей. В противном случае вы можете вручную добавить путь в адресную строку:.../ui/entity/list/<entity-type>

Получите доступ к отдельным объектам из списка или разверните одну из диаграмм, чтобы получить полную информацию:

Поиск неисправностей

Состояние конфигурации не в порядке

Всякий раз, когда создается или обновляется конфигурация мониторинга, полная активация и запуск мониторинга может занять несколько минут. До тех пор состояние конфигурации может измениться на «Предупреждение» или «Ошибка», поскольку конфигурация запланирована для конечной точки, поставлена ​​в очередь на загрузку, активирована, проверена и запущена. Выделите для этого не менее 5 минут. Если статус все еще не в порядке, выберите цветную точку рядом с ним; это откроет интерфейс просмотра журнала для более подробной информации.

Сбои быстрой проверки

Fastcheck — это простой запрос SNMP Get, целью которого является получение одного OID от устройства, представляющего его системное имя. У устройства есть 18 секунд на ответ, иначе проверка не пройдёт. Это самый первый шаг перед сбором любых других деталей с устройства.

Сбои Fastcheck указывают на проблему со связью с устройством

  • Неправильные учетные данные для подключения к устройству
  • Сетевые брандмауэры не разрешают связь
  • Неправильно настроенные устройства, не разрешающие запросы SNMP

GetBulk вернул ошибку

GetBulk — это операция запроса SNMP, используемая для извлечения данных из устройства F5. Когда это появляется в сообщении об ошибке, это означает, что устройство доступно (FastCheck пройден), но данные не могут быть получены.

Этот тип ошибки может иметь несколько причин:

  • Предоставленные учетные данные (например, строка сообщества) недействительны.
  • Сеть ненадежна, что вызывает проблемы со связью
  • Слишком много данных для извлечения; попробуйте уменьшить наборы функций или оптимизировать дополнительные настройки

Недопустимые ошибки конфигурации

Неверная конфигурация будет указывать на сведения, введенные в поля конфигурации мониторинга. Хотя сведения об устройстве говорят сами за себя, фильтры переменных должны следовать синтаксису, упомянутому в предыдущем разделе.

Высокий процессор

HIGH_CPUстатус означает, что на АктивныйШлюз достигнуто максимально допустимое потребление ЦП для модуля источника данных Extension Execution Controller (EEC).

  • Объем данных не может быть собран и обработан без превышения встроенного лимита ресурсов 5% использования ЦП.
  • Попробуйте изначально включить меньшее количество наборов функций (подразумевается меньше метрик, а значит, меньше запросов для обработки) или, в качестве альтернативы, распределить наборы функций по нескольким конфигурациям.

Журналы расширений

Журналы расширения можно найти в каталогах АктивныйШлюз . Найдите столбец Extensions 2.0 configuration, logsНазначение столбца .

Оптимизация для больших устройств

Конфигурации мониторинга снабжены набором расширенных настроек, влияющих на то, как данные запрашиваются с устройства через SNMP. Значения по умолчанию будут работать в большинстве случаев, но вы можете изменить их, если у вас возникли проблемы, например, если вам не хватает данных:

  • Тайм-аут и повторные попытки относятся к максимальному времени ожидания возврата запроса SNMP и количеству повторных попыток запроса в случае сбоя.
  • Макс. повторения относятся к тому, сколько раз OID (идентификатор метрики в SNMP) может повторяться как часть одного ответа на запрос SNMP GetBulk, когда одна и та же метрика собирается для нескольких объектов/экземпляров. Меньшее значение означает большее количество запросов между расширением и устройством для сбора большого набора данных. Из-за скорости и ненадежности протокола SNMP эффективнее использовать меньшее значение (например, 20). По умолчанию = 50.
  • Макс. OID на запрос относится к максимальному количеству OID, которое может быть запрошено для каждого запроса SNMP GetBulk. В очень больших средах рекомендуется установить значение 5. Это повышает производительность за счет дальнейшего разделения рабочей нагрузки на большее количество запросов.

Метрики

Просмотрите метрики, собранные расширением, с разбивкой по наборам функций.

  • N/A
Название метрики Ключ метрики Описание
System uptime sys.uptime.sec Время работы системы с момента загрузки
  • instance-memory-basic
Название метрики Ключ метрики Описание
Total memory sys.host.memory.total Общая память хоста в байтах (не включая TMM) для одной хост-системы.
Memory used (%) sys.host.memory.used.percent Общее использование памяти хост-системы.
Used memory sys.host.memory.used Память хоста в байтах, используемая в настоящее время (не включая TMM) для одной хост-системы.
  • instance-memory-advanced
Название метрики Ключ метрики Описание
Total swap mem.total.swap Общий объем пространства подкачки, настроенный для этого хоста.
Available swap mem.avail.swap Объем пространства подкачки, который в настоящее время не используется или доступен.
Shared memory mem.shared Общий объем реальной или виртуальной памяти, выделенной в данный момент для использования в качестве разделяемой памяти. Этот объект не будет реализован на хостах, где базовая операционная система явно не идентифицирует память как специально зарезервированную для этой цели.
Cached memory mem.cached Общий объем реальной или виртуальной памяти, выделенной в данный момент для использования в качестве кэшированной памяти. Этот объект не будет реализован на хостах, где базовая операционная система явно не идентифицирует память как специально зарезервированную для этой цели.
Buffer memory mem.buffer Общий объем реальной или виртуальной памяти, выделенной в данный момент для использования в качестве буферов памяти. Этот объект не будет реализован на хостах, где базовая операционная система явно не идентифицирует память как специально зарезервированную для этой цели.
  • instance-sync
Название метрики Ключ метрики Описание
Failover status sys.cm.failover.status.id Идентификатор состояния отработки отказа в системе.

0 - статус аварийного переключения устройства неизвестен; 1 - устройство не в сети; 2 - устройство отключено принудительно; 3 - устройство находится в режиме ожидания; 4 - устройство активно.

Sync status sys.cm.sync.status.id Идентификатор состояния синхронизации в системе.
  • instance-cpu-basic
Название метрики Ключ метрики Описание
Idle CPU sys.global.host.cpu.idle1m Среднее время, в течение которого указанный процессор ничего не делал для системы за последнюю минуту.
IO Wait CPU sys.global.host.cpu.iowait1m Среднее время, затрачиваемое указанным процессором на ожидание завершения внешнего ввода-вывода для системы за последнюю минуту.
IRQ CPU sys.global.host.cpu.irq1m Среднее время, затраченное указанным процессором на обслуживание аппаратных прерываний системы за последнюю минуту.
Soft IRQ CPU sys.global.host.cpu.softirq1m.count Среднее время, затраченное указанным процессором на обслуживание программных прерываний для системы за последнюю минуту.
Stolen CPU sys.global.host.cpu.stolen1m Среднее время, «украденное» из системы за последнюю минуту.
System CPU sys.global.host.cpu.system1m Среднее время, затраченное указанным процессором, обслуживающим систему, на вызовы системы за последнюю минуту.
User CPU sys.global.host.cpu.user1m Среднее время, проведенное указанным процессором в пользовательском контексте системы за последнюю минуту.
  • disk
Название метрики Ключ метрики Описание
Block size sys.host.disk.block.size Количество байтов в указанном разделе.
Total blocks sys.host.disk.total.blocks Общее количество блоков в указанном разделе.
Free blocks sys.host.disk.free.blocks Общее количество блоков в указанном разделе.
Free Disk (%) sys.host.disk.free.percent Процент свободного (доступного) диска для определенного раздела.
Used Disk (%) sys.host.disk.used.percent Диск в процентах, используемый для определенного раздела.
Free Disk sys.host.disk.free.byte Общий объем свободного места на диске для определенного раздела.
Used Disk sys.host.disk.used.byte Общий объем используемого дискового пространства для определенного раздела.
  • interface
Название метрики Ключ метрики Описание
Status sys.interface.status Текущее состояние указанного интерфейса.
Bytes received sys.interface.stat.bytes.in.count Количество байтов, полученных на указанном интерфейсе.
Bytes transmitted sys.interface.stat.bytes.out.count Количество байтов, переданных из указанного интерфейса.
Packets received sys.interface.stat.pkts.in.count Количество пакетов, полученных на этом интерфейсе.
Packets transmitted sys.interface.stat.pkts.out.count Количество пакетов, переданных из указанного интерфейса.
Dropped incoming packets sys.interface.stat.drops.in.count Количество пакетов, отброшенных при входе по разным причинам на указанном интерфейсе.
Dropped outgoing packets sys.interface.stat.drops.out.count Количество устаревших пакетов или пакетов с чрезмерными задержками передачи из-за многочисленных отложений на указанном интерфейсе.
Incoming errors sys.interface.stat.errors.in.count Количество полученных пакетов меньшего или большего размера или пакетов с ошибками FCS на указанном интерфейсе.
Outgoing errors sys.interface.stat.errors.out.count Количество чрезмерных коллизий, увеличенное для каждого кадра, в котором произошло 16 коллизий во время передачи и который был прерван на указанном интерфейсе.
  • pool-basic
Название метрики Ключ метрики Описание
Requests pool.stat.tot.requests.count Общее количество запросов к указанному пулу.
Connections pool.stat.server.tot.conns.count Общее количество подключений со стороны сервера к указанному пулу.
Current sessions pool.stat.cur.sessions Текущее количество сеансов в указанном пуле.
Active members pool.active.member.cnt Количество текущих активных участников в указанном пуле.
Members pool.member.cnt Общее количество участников в указанном пуле.
Enabled state pool.enablestate Статус активности указанного пула, указанный пользователем. Может быть нет (0), включено (1), отключено (2), отключено родителем (3).
  • pool-advanced
Название метрики Ключ метрики Описание
Bytes received pool.stat.server.bytes.in.count Количество байтов, полученных указанным пулом со стороны сервера.
Bytes transmitted pool.stat.server.bytes.out.count Количество байтов, отправленных на сервер из указанного пула.
Packets received pool.stat.server.pkts.in.count Количество пакетов, полученных указанным пулом со стороны сервера.
Packets transmitted pool.stat.server.pkts.out.count Количество пакетов, отправленных на сервер из указанного пула.
  • node-basic
Название метрики Ключ метрики Описание
Monitor status node.monitor.status Иерархическое состояние балансировки нагрузки для указанного адреса узла, включая родительский статус — непроверенный (0), проверяемый (1), внутренний (2), активный (3), адрес-вниз (18), вниз (19), принудительно-вниз (20), maint (21), irule-down (22), inband-down (23), down-manual-resume (24)
Enabled state node.enablestate Статус активности указанного члена пула, указанный пользователем.
Availability state node.availstate Состояние доступности указанного члена пула отображается цветом. Сопоставлено как нет (0), зеленый (1), желтый (2), красный (3), синий (4), серый (5)
Requests node.stat.tot.requests.count Общее количество запросов, проходящих через указанный член пула.
Connections node.stat.server.tot.conns.count Общее количество подключений со стороны сервера к указанному члену пула.
  • node-advanced
Название метрики Ключ метрики Описание
Bytes received node.stat.server.bytes.in.count Количество байтов, полученных указанным членом пула со стороны сервера.
Bytes transmitted node.stat.server.bytes.out.count Количество байтов, отправленных на сервер от указанного члена пула.
Packets received node.stat.server.pkts.in.count Количество пакетов, полученных указанным членом пула со стороны сервера.
Packets transmitted node.stat.server.pkts.out.count Количество пакетов, отправленных на сервер от указанного члена пула.
  • virtualserver-basic
Название метрики Ключ метрики Описание
Enabled state virtualserver.enabled Состояние, указывающее, включен ли указанный виртуальный сервер или нет.
Enabled state virtualserver.status.enablestate Статус активности указанного виртуального сервера, указанный пользователем.
Availability state virtualserver.status.availstate Доступность указанного виртуального сервера обозначена цветом. нет - ошибка; зеленый - доступен в какой-то емкости; желтый - в данный момент недоступен; красный - нет в наличии; синий - наличие неизвестно; серый - нелицензионный.
Requests virtualserver.stat.tot.requests.count Общее количество запросов, проходящих через указанный виртуальный сервер.
CPU Usage virtualserver.stat.vs.usage.ratio1m Процент времени, в течение которого виртуальный сервер был занят за последнюю минуту.
Connections virtualserver.stat.client.tot.conns.count Общее количество подключений со стороны клиента к указанному виртуальному серверу.
Ephemeral connections virtualserver.stat.ephemeral.tot.conns.count Общее количество эфемерных подключений к указанному виртуальному серверу.
Slow connections killed virtualserver.stat.client.slow.killed.count Количество медленных клиентских подключений, которые были прерваны на указанном виртуальном сервере.
Evicted connections virtualserver.stat.client.evicted.conns.count Количество отключенных клиентских подключений на указанном виртуальном сервере.
Accepted syn cookies virtualserver.stat.wl.syncookie.accepts.count Количество полученных синхрофайлов из списка разрешенных, которые были приняты.
Rejected syn cookies virtualserver.stat.wl.syncookie.rejects.count Количество полученных синхрофайлов белого списка, которые были отклонены.
  • virtualserver-advanced
Название метрики Ключ метрики Описание
Bytes received virtualserver.stat.client.bytes.in.count Количество байтов, полученных указанным виртуальным сервером со стороны клиента.
Ephemeral bytes received virtualserver.stat.ephemeral.bytes.in.count Количество эфемерных байтов, полученных указанным виртуальным сервером.
Bytes transmitted virtualserver.stat.client.bytes.out.count Количество байтов, отправленных на сторону клиента с указанного виртуального сервера.
Ephemeral bytes transmitted virtualserver.stat.ephemeral.bytes.out.count Количество эфемерных байтов, переданных с указанного виртуального сервера.
Packets received virtualserver.stat.client.pkts.in.count Количество пакетов, полученных указанным виртуальным сервером со стороны клиента.
Ephemeral packets received virtualserver.stat.ephemeral.pkts.in.count Количество эфемерных пакетов, полученных указанным виртуальным сервером.
Packets transmitted virtualserver.stat.client.pkts.out.count Количество пакетов, отправленных на сторону клиента с указанного виртуального сервера.
Ephemeral packets transmitted virtualserver.stat.ephemeral.pkts.out.count Количество эфемерных пакетов, переданных с указанного виртуального сервера.
  • profile-serverssl
Название метрики Ключ метрики Описание
Common connections profile.server.ssl.stat.tot.compat.conns.count Общее количество одновременных совместимых соединений с установленными сеансами SSL, поддерживаемых фильтром.
Native connections profile.server.ssl.stat.tot.native.conns.count Общее количество одновременных собственных подключений с установленными сеансами SSL, поддерживаемых фильтром.
Fatal alerts profile.server.ssl.stat.fatal.alerts.count Общее количество фатальных предупреждений.
Secure handshakes profile.server.ssl.stat.secure.handshakes.count Количество рукопожатий, включая повторное согласование в середине потока, выполненных с одноранговыми узлами, поддерживающими безопасное повторное согласование SSL.
Handshake failures profile.server.ssl.stat.handshake.failures.count Общее количество неудачных рукопожатий.
Insecure handshakes accepted profile.server.ssl.stat.insecure.handshake.accepts.count Количество рукопожатий, включая повторное согласование в середине потока, выполненных с одноранговыми узлами, не поддерживающими безопасное повторное согласование SSL.
Insecure handshakes rejected profile.server.ssl.stat.insecure.handshake.rejects.count Количество отклоненных первоначальных рукопожатий с одноранговыми узлами, не поддерживающими безопасное повторное согласование SSL.
Insecure renegotiations rejected profile.server.ssl.stat.insecure.renegotiation.rejects.count Количество отклоненных попыток повторного согласования узлами, не поддерживающими безопасное повторное согласование SSL.
DTLSv1 connections profile.server.ssl.stat.dtlsv1.count Общее количество соединений для протокола SSL DTLS версии 1.
DTLSv2 connections profile.server.ssl.stat.sslv2.count Общее количество подключений для протокола SSL версии 2.
SSLv3 connections profile.server.ssl.stat.sslv3.count Общее количество подключений для протокола SSL версии 3.
TLSv1.1 connections.count profile.server.ssl.stat.tlsv11 Общее количество подключений для протокола SSL TLS версии 1.1.
TLSv1.2 connections profile.server.ssl.stat.tlsv12.count Общее количество подключений для протокола SSL TLS версии 1.2.
TLSv1 connections profile.server.ssl.stat.tlsv1.count Общее количество соединений для протокола SSL TLS версии 1.
Common connections profile.client.ssl.stat.tot.compat.conns.count Общее количество одновременных совместимых соединений с установленными сеансами SSL, поддерживаемых фильтром.
Native connections profile.client.ssl.stat.tot.native.conns.count Общее количество одновременных собственных подключений с установленными сеансами SSL, поддерживаемых фильтром.