Мониторинг Kafka: различия между версиями
Материал из Документация Ключ-АСТРОМ
(Создана пустая страница) |
ENetrebin (обсуждение | вклад) |
||
(не показаны 2 промежуточные версии 2 участников) | |||
Строка 1: | Строка 1: | ||
'''''[[Применение Ключ-АСТРОМ]] / [https://doc.ruscomtech.ru/index.php/Применение_Ключ-АСТРОМ#.D0.91.D0.B5.D0.B7.D0.BE.D0.BF.D0.B0.D1.81.D0.BD.D0.BE.D1.81.D1.82.D1.8C_.D0.BF.D1.80.D0.B8.D0.BB.D0.BE.D0.B6.D0.B5.D0.BD.D0.B8.D0.B9 Мониторинг очередей] / Мониторинг Kafka''''' | |||
== Мониторинг Kafka == | |||
Apache Kafka - это распределенная шина сообщений для публикации и подписки с открытым исходным кодом, разработанная для того, чтобы быть быстрой, масштабируемой и долговечной. Ключ-АСТРОМ автоматически распознает процессы Kafka и мгновенно собирает их показатели на уровне процесса и кластера. | |||
Информацию об общем мониторинге очереди сообщений Kafka см. в разделе '''''Пользовательские службы обмена сообщениями.''''' | |||
== Необходимые условия == | |||
* Ключ-АСТРОМ версии не ниже 1.155 | |||
* Apache Kafka или Confluent-supported Kafka версии не ниже 0.9.0.1 | |||
* Если у вас более одного кластера Kafka, разделите кластеры на отдельные '''''группы процессов''''' с помощью переменной окружения в настройках Ключ-АСТРОМ | |||
== Активация == | |||
# Перейдите на вкладку '''Настройки'''. | |||
# Выберите '''Мониторинг > Отслеживаемые технологии.''' | |||
# Найдите строку '''Kafka''' и включите функцию '''Мониторинг окружения'''. После включения мониторинга '''Kafka''' '''Ключ-АСТРОМ''' автоматически активирует мониторинг '''Kafka''' на всех хостах и отслеживает все компоненты '''Kafka'''. | |||
== События == | |||
{| class="wikitable" | |||
!Имя | |||
!Состояние | |||
!Событие | |||
|- | |||
|Недостаточно реплицированные разделы | |||
|Последователи разделов не синхронизированы с главным | |||
|Характеристика (PERFORMANCE_EVENT) | |||
|- | |||
|Автономные разделы | |||
|Главные разделы отсутствуют | |||
|Характеристика (PERFORMANCE_EVENT) | |||
|- | |||
|Несоответствие контроллеров кластера | |||
|Брокеры обнаруживают несколько контроллеров | |||
|Ошибка (ERROR_EVENT) | |||
|} | |||
Чтобы настроить '''''пороговые значения обнаружения проблем''''' для '''Kafka''' | |||
# Перейдите в Настройки. | |||
# Выберите '''Обнаружение аномалий > События расширений''' и найдите '''Kafka''' в списке. | |||
== Метрики == | |||
Кластерные метрики | |||
{| class="wikitable" | |||
!Метрика | |||
!Описание | |||
|- | |||
|Разделы | |||
|Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру. | |||
|- | |||
|В разделе реплицированные разделы | |||
|Количество недостаточно реплицированных разделов в кластере. Недостаточно реплицированные разделы указывают на то, что репликация продолжается, потребители не получают данные, а задержка растет. | |||
|- | |||
|Автономные разделы | |||
|Количество разделов без активных ведущих и, следовательно, недоступных для записи. | |||
|- | |||
|Активные кластерные контроллеры | |||
|Количество активных контроллеров в кластере. Выдается предупреждение, если совокупная сумма по всем брокерам в кластере отличается от 1, потому что в кластере должен быть ровно один контроллер. | |||
|} | |||
Брокерские метрики | |||
{| class="wikitable" | |||
!Метрика | |||
!Описание | |||
|- | |||
|Среднее время | |||
|Время, затраченное на удаление журнала раздела на диск, либо превышает время на удаление, либо превышает максимальный размер. | |||
|- | |||
|95-й процентиль | |||
|95-й процентиль времени очистки журнала. Даже небольшое изменение времени очистки журнала может существенно повлиять на производительность Kafka. | |||
|- | |||
|Скорость передачи входящих байтов | |||
|Пропускная способность со скоростью передачи байтов от клиентов брокера (потребителей, производителей и соединителей). | |||
|- | |||
|Скорость передачи байтов | |||
|Пропускная способность с частотой байтов исходящего брокера от клиентов (потребителей, производителей и соединителей). | |||
|- | |||
|Разделы | |||
|Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру. | |||
|- | |||
|Реплицированные разделы | |||
|Количество недостаточно реплицированных разделов. | |||
|- | |||
|Частота запросов на создание | |||
|Частота запросов на создание. | |||
|- | |||
|Не удалось выполнить запрос | |||
|Частота неудачных запросов на создание. | |||
|- | |||
|Создать задержку | |||
|Задержка при создании. | |||
|- | |||
|Скорость обработки запросов | |||
|Скорость обработки запросов | |||
|- | |||
|Неудачные запросы на создание | |||
|Количество неудачных запросов на создание. | |||
|- | |||
|Уровень выбора лидера | |||
|Уровень выборов повышается при сбоях брокеров. | |||
|- | |||
|Нечистый процент выборов | |||
|Нечистый процент выборов. | |||
|- | |||
|Количество лидеров | |||
|Лидеры разделов у этого брокера. | |||
|- | |||
|Размер очереди запросов | |||
|Размер очереди запросов. Перегруженная очередь запросов не сможет обрабатывать входящие или исходящие запросы. | |||
|- | |||
|Количество сообщений в рейтинге | |||
|Количество сообщений увеличилось. | |||
|- | |||
|Максимальное отставание подписчика | |||
|Максимальная задержка в сообщениях между репликами подписчика и лидера. Это контролируется конфигурацией <code>replica.lag.max.messages</code>. Задержка измеряется как разница в смещении между брокером подписчика и брокером лидера. Максимальная задержка - это задержка раздела, который в наибольшей степени не синхронизирован. | |||
|- | |||
|ZooKeeper отключен | |||
|Клиент ZooKeeper отключен от сети: клиент потерял соединение с сервером и пытается подключиться повторно. Срок действия сеанса не обязательно истек. | |||
|- | |||
|Срок действия ZooKeeper истекает | |||
|Частота истечения срока действия сеанса ZooKeeper. По истечении сеанса у нас может произойти смена лидера и даже нового контроллера. Важно следить за количеством таких событий в кластере Kafka. Если общее количество данных велико: | |||
# Проверьте работоспособность вашей сети | |||
# Проверьте, нет ли проблем со сбором мусора, и настройте его соответствующим образом | |||
# При необходимости увеличьте время ожидания сеанса, установив значение <code>zookeeper.session.timeout.ms</code> | |||
|} | |||
Показатели запросов | |||
{| class="wikitable" | |||
!Метрика | |||
!Описание | |||
|- | |||
|Количество запросов в секунду | |||
|Количество запросов в секунду. | |||
|- | |||
|Общее время на запрос | |||
|Общее время на запрос. | |||
|} | |||
Метрики Kafka для создания, использования и подключения | |||
{| class="wikitable" | |||
!Метрика | |||
!Описание | |||
|- | |||
|Запросы | |||
|Количество запросов, обрабатываемых клиентом в секунду. | |||
|- | |||
|Размер запроса | |||
|Средний размер запроса за одну минуту. | |||
|- | |||
|Скорость передачи входящих / исходящих байтов | |||
|Скорость обработки байтов клиентом. | |||
|} |
Текущая версия на 14:29, 12 сентября 2024
Применение Ключ-АСТРОМ / Мониторинг очередей / Мониторинг Kafka
Мониторинг Kafka
Apache Kafka - это распределенная шина сообщений для публикации и подписки с открытым исходным кодом, разработанная для того, чтобы быть быстрой, масштабируемой и долговечной. Ключ-АСТРОМ автоматически распознает процессы Kafka и мгновенно собирает их показатели на уровне процесса и кластера.
Информацию об общем мониторинге очереди сообщений Kafka см. в разделе Пользовательские службы обмена сообщениями.
Необходимые условия
- Ключ-АСТРОМ версии не ниже 1.155
- Apache Kafka или Confluent-supported Kafka версии не ниже 0.9.0.1
- Если у вас более одного кластера Kafka, разделите кластеры на отдельные группы процессов с помощью переменной окружения в настройках Ключ-АСТРОМ
Активация
- Перейдите на вкладку Настройки.
- Выберите Мониторинг > Отслеживаемые технологии.
- Найдите строку Kafka и включите функцию Мониторинг окружения. После включения мониторинга Kafka Ключ-АСТРОМ автоматически активирует мониторинг Kafka на всех хостах и отслеживает все компоненты Kafka.
События
Имя | Состояние | Событие |
---|---|---|
Недостаточно реплицированные разделы | Последователи разделов не синхронизированы с главным | Характеристика (PERFORMANCE_EVENT) |
Автономные разделы | Главные разделы отсутствуют | Характеристика (PERFORMANCE_EVENT) |
Несоответствие контроллеров кластера | Брокеры обнаруживают несколько контроллеров | Ошибка (ERROR_EVENT) |
Чтобы настроить пороговые значения обнаружения проблем для Kafka
- Перейдите в Настройки.
- Выберите Обнаружение аномалий > События расширений и найдите Kafka в списке.
Метрики
Кластерные метрики
Метрика | Описание |
---|---|
Разделы | Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру. |
В разделе реплицированные разделы | Количество недостаточно реплицированных разделов в кластере. Недостаточно реплицированные разделы указывают на то, что репликация продолжается, потребители не получают данные, а задержка растет. |
Автономные разделы | Количество разделов без активных ведущих и, следовательно, недоступных для записи. |
Активные кластерные контроллеры | Количество активных контроллеров в кластере. Выдается предупреждение, если совокупная сумма по всем брокерам в кластере отличается от 1, потому что в кластере должен быть ровно один контроллер. |
Брокерские метрики
Метрика | Описание |
---|---|
Среднее время | Время, затраченное на удаление журнала раздела на диск, либо превышает время на удаление, либо превышает максимальный размер. |
95-й процентиль | 95-й процентиль времени очистки журнала. Даже небольшое изменение времени очистки журнала может существенно повлиять на производительность Kafka. |
Скорость передачи входящих байтов | Пропускная способность со скоростью передачи байтов от клиентов брокера (потребителей, производителей и соединителей). |
Скорость передачи байтов | Пропускная способность с частотой байтов исходящего брокера от клиентов (потребителей, производителей и соединителей). |
Разделы | Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру. |
Реплицированные разделы | Количество недостаточно реплицированных разделов. |
Частота запросов на создание | Частота запросов на создание. |
Не удалось выполнить запрос | Частота неудачных запросов на создание. |
Создать задержку | Задержка при создании. |
Скорость обработки запросов | Скорость обработки запросов |
Неудачные запросы на создание | Количество неудачных запросов на создание. |
Уровень выбора лидера | Уровень выборов повышается при сбоях брокеров. |
Нечистый процент выборов | Нечистый процент выборов. |
Количество лидеров | Лидеры разделов у этого брокера. |
Размер очереди запросов | Размер очереди запросов. Перегруженная очередь запросов не сможет обрабатывать входящие или исходящие запросы. |
Количество сообщений в рейтинге | Количество сообщений увеличилось. |
Максимальное отставание подписчика | Максимальная задержка в сообщениях между репликами подписчика и лидера. Это контролируется конфигурацией replica.lag.max.messages . Задержка измеряется как разница в смещении между брокером подписчика и брокером лидера. Максимальная задержка - это задержка раздела, который в наибольшей степени не синхронизирован.
|
ZooKeeper отключен | Клиент ZooKeeper отключен от сети: клиент потерял соединение с сервером и пытается подключиться повторно. Срок действия сеанса не обязательно истек. |
Срок действия ZooKeeper истекает | Частота истечения срока действия сеанса ZooKeeper. По истечении сеанса у нас может произойти смена лидера и даже нового контроллера. Важно следить за количеством таких событий в кластере Kafka. Если общее количество данных велико:
|
Показатели запросов
Метрика | Описание |
---|---|
Количество запросов в секунду | Количество запросов в секунду. |
Общее время на запрос | Общее время на запрос. |
Метрики Kafka для создания, использования и подключения
Метрика | Описание |
---|---|
Запросы | Количество запросов, обрабатываемых клиентом в секунду. |
Размер запроса | Средний размер запроса за одну минуту. |
Скорость передачи входящих / исходящих байтов | Скорость обработки байтов клиентом. |