Мониторинг Kafka
Материал из Документация Ключ-АСТРОМ
Мониторинг Kafka
Apache Kafka - это распределенная шина сообщений для публикации и подписки с открытым исходным кодом, разработанная для того, чтобы быть быстрой, масштабируемой и долговечной. Ключ-АСТРОМ автоматически распознает процессы Kafka и мгновенно собирает их показатели на уровне процесса и кластера.
Информацию об общем мониторинге очереди сообщений Kafka см. в разделе Пользовательские службы обмена сообщениями.
Необходимые условия
- Ключ-АСТРОМ версии не ниже 1.155
- Apache Kafka или Confluent-supported Kafka версии не ниже 0.9.0.1
- Если у вас более одного кластера Kafka, разделите кластеры на отдельные группы процессов с помощью переменной окружения в настройках Ключ-АСТРОМ
Активация
- Перейдите на вкладку Настройки.
- Выберите Мониторинг > Отслеживаемые технологии.
- Найдите строку Kafka и включите функцию Мониторинг окружения. После включения мониторинга Kafka Ключ-АСТРОМ автоматически активирует мониторинг Kafka на всех хостах и отслеживает все компоненты Kafka.
События
Имя | Состояние | Событие |
---|---|---|
Недостаточно реплицированные разделы | Последователи разделов не синхронизированы с главным | Характеристика (PERFORMANCE_EVENT) |
Автономные разделы | Главные разделы отсутствуют | Характеристика (PERFORMANCE_EVENT) |
Несоответствие контроллеров кластера | Брокеры обнаруживают несколько контроллеров | Ошибка (ERROR_EVENT) |
Чтобы настроить пороговые значения обнаружения проблем для Kafka
- Перейдите в Настройки.
- Выберите Обнаружение аномалий > События расширений и найдите Kafka в списке.
Метрики
Кластерные метрики
Метрика | Описание |
---|---|
Разделы | Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру. |
В разделе реплицированные разделы | Количество недостаточно реплицированных разделов в кластере. Недостаточно реплицированные разделы указывают на то, что репликация продолжается, потребители не получают данные, а задержка растет. |
Автономные разделы | Количество разделов без активных ведущих и, следовательно, недоступных для записи. |
Активные кластерные контроллеры | Количество активных контроллеров в кластере. Выдается предупреждение, если совокупная сумма по всем брокерам в кластере отличается от 1, потому что в кластере должен быть ровно один контроллер. |
Брокерские метрики
Метрика | Описание |
---|---|
Среднее время | Время, затраченное на удаление журнала раздела на диск, либо превышает время на удаление, либо превышает максимальный размер. |
95-й процентиль | 95-й процентиль времени очистки журнала. Даже небольшое изменение времени очистки журнала может существенно повлиять на производительность Kafka. |
Скорость передачи входящих байтов | Пропускная способность со скоростью передачи байтов от клиентов брокера (потребителей, производителей и соединителей). |
Скорость передачи байтов | Пропускная способность с частотой байтов исходящего брокера от клиентов (потребителей, производителей и соединителей). |
Разделы | Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру. |
Реплицированные разделы | Количество недостаточно реплицированных разделов. |
Частота запросов на создание | Частота запросов на создание. |
Не удалось выполнить запрос | Частота неудачных запросов на создание. |
Создать задержку | Задержка при создании. |
Скорость обработки запросов | Скорость обработки запросов |
Неудачные запросы на создание | Количество неудачных запросов на создание. |
Уровень выбора лидера | Уровень выборов повышается при сбоях брокеров. |
Нечистый процент выборов | Нечистый процент выборов. |
Количество лидеров | Лидеры разделов у этого брокера. |
Размер очереди запросов | Размер очереди запросов. Перегруженная очередь запросов не сможет обрабатывать входящие или исходящие запросы. |
Количество сообщений в рейтинге | Количество сообщений увеличилось. |
Максимальное отставание подписчика | Максимальная задержка в сообщениях между репликами подписчика и лидера. Это контролируется конфигурацией replica.lag.max.messages . Задержка измеряется как разница в смещении между брокером подписчика и брокером лидера. Максимальная задержка - это задержка раздела, который в наибольшей степени не синхронизирован.
|
ZooKeeper отключен | Клиент ZooKeeper отключен от сети: клиент потерял соединение с сервером и пытается подключиться повторно. Срок действия сеанса не обязательно истек. |
Срок действия ZooKeeper истекает | Частота истечения срока действия сеанса ZooKeeper. По истечении сеанса у нас может произойти смена лидера и даже нового контроллера. Важно следить за количеством таких событий в кластере Kafka. Если общее количество данных велико:
|
Показатели запросов
Метрика | Описание |
---|---|
Количество запросов в секунду | Количество запросов в секунду. |
Общее время на запрос | Общее время на запрос. |
Метрики Kafka для создания, использования и подключения
Метрика | Описание |
---|---|
Запросы | Количество запросов, обрабатываемых клиентом в секунду. |
Размер запроса | Средний размер запроса за одну минуту. |
Скорость передачи входящих / исходящих байтов | Скорость обработки байтов клиентом. |