Мониторинг Kafka: различия между версиями

Материал из Документация Ключ-АСТРОМ
(Создана пустая страница)
 
(Создание)
Строка 1: Строка 1:
== Мониторинг Kafka ==
Apache Kafka - это распределенная шина сообщений для публикации и подписки с открытым исходным кодом, разработанная для того, чтобы быть быстрой, масштабируемой и долговечной. Ключ-АСТРОМ автоматически распознает процессы Kafka и мгновенно собирает их показатели на уровне процесса и кластера.


Информацию об общем мониторинге очереди сообщений Kafka см. в разделе '''''Пользовательские службы обмена сообщениями.'''''
== Необходимые условия ==
* Ключ-АСТРОМ версии не ниже 1.155
* Apache Kafka или Confluent-supported Kafka версии не ниже 0.9.0.1
* Если у вас более одного кластера Kafka, разделите кластеры на отдельные '''''группы процессов''''' с помощью переменной окружения в настройках Ключ-АСТРОМ
== Активация ==
# Перейдите на вкладку '''Настройки'''.
# Выберите '''Мониторинг > Отслеживаемые технологии.'''
# Найдите строку '''Kafka''' и включите функцию '''Мониторинг окружения'''. После включения мониторинга '''Kafka''' '''Ключ-АСТРОМ''' автоматически активирует мониторинг '''Kafka''' на всех хостах и отслеживает все компоненты '''Kafka'''.
== События ==
{| class="wikitable"
!Имя
!Состояние
!Событие Dynatrace
|-
|Недостаточно реплицированные разделы
|Последователи разделов не синхронизированы с главным
|Характеристика (PERFORMANCE_EVENT)
|-
|Автономные разделы
|Главные разделы отсутствуют
|Характеристика (PERFORMANCE_EVENT)
|-
|Несоответствие контроллеров кластера
|Брокеры обнаруживают несколько контроллеров
|Ошибка (ERROR_EVENT)
|}
Чтобы настроить '''''пороговые значения обнаружения проблем''''' для '''Kafka'''
# Перейдите в Настройки.
# Выберите '''Обнаружение аномалий > События расширений''' и найдите '''Kafka''' в списке.
== Метрики ==
Кластерные метрики
{| class="wikitable"
!Метрика
!Описание
|-
|Разделы
|Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру.
|-
|В разделе реплицированные разделы
|Количество недостаточно реплицированных разделов в кластере. Недостаточно реплицированные разделы указывают на то, что репликация продолжается, потребители не получают данные, а задержка растет.
|-
|Автономные разделы
|Количество разделов без активных ведущих и, следовательно, недоступных для записи.
|-
|Активные кластерные контроллеры
|Количество активных контроллеров в кластере. Выдается предупреждение, если совокупная сумма по всем брокерам в кластере отличается от 1, потому что в кластере должен быть ровно один контроллер.
|}
Брокерские метрики
{| class="wikitable"
!Метрика
!Описание
|-
|Среднее время
|Время, затраченное на удаление журнала раздела на диск, либо превышает время на удаление, либо превышает максимальный размер.
|-
|95-й процентиль
|95-й процентиль времени очистки журнала. Даже небольшое изменение времени очистки журнала может существенно повлиять на производительность Kafka.
|-
|Скорость передачи входящих байтов
|Пропускная способность со скоростью передачи байтов от клиентов брокера (потребителей, производителей и соединителей).
|-
|Скорость передачи байтов
|Пропускная способность с частотой байтов исходящего брокера от клиентов (потребителей, производителей и соединителей).
|-
|Разделы
|Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру.
|-
|Реплицированные разделы
|Количество недостаточно реплицированных разделов.
|-
|Частота запросов на создание
|Частота запросов на создание.
|-
|Не удалось выполнить запрос
|Частота неудачных запросов на создание.
|-
|Создать задержку
|Задержка при создании.
|-
|Скорость обработки запросов
|Скорость обработки запросов
|-
|Неудачные запросы на создание
|Количество неудачных запросов на создание.
|-
|Уровень выбора лидера
|Уровень выборов повышается при сбоях брокеров.
|-
|Нечистый процент выборов
|Нечистый процент выборов.
|-
|Количество лидеров
|Лидеры разделов у этого брокера.
|-
|Размер очереди запросов
|Размер очереди запросов. Перегруженная очередь запросов не сможет обрабатывать входящие или исходящие запросы.
|-
|Количество сообщений в рейтинге
|Количество сообщений увеличилось.
|-
|Максимальное отставание подписчика
|Максимальная задержка в сообщениях между репликами подписчика и лидера. Это контролируется  конфигурацией <code>replica.lag.max.messages</code>. Задержка измеряется как разница в смещении между брокером подписчика и брокером лидера. Максимальная задержка - это задержка раздела, который в наибольшей степени не синхронизирован.
|-
|ZooKeeper отключен
|Клиент ZooKeeper отключен от сети: клиент потерял соединение с сервером и пытается подключиться повторно. Срок действия сеанса не обязательно истек.
|-
|Срок действия ZooKeeper истекает
|Частота истечения срока действия сеанса ZooKeeper. По истечении сеанса у нас может произойти смена лидера и даже нового контроллера. Важно следить за количеством таких событий в кластере Kafka. Если общее количество данных велико:
# Проверьте работоспособность вашей сети
# Проверьте, нет ли проблем со сбором мусора, и настройте его соответствующим образом
# При необходимости увеличьте время ожидания сеанса, установив значение <code>zookeeper.session.timeout.ms</code>
|}
Показатели запросов
{| class="wikitable"
!Метрика
!Описание
|-
|Количество запросов в секунду
|Количество запросов в секунду.
|-
|Общее время на запрос
|Общее время на запрос.
|}
Метрики Kafka для создания, использования и подключения
{| class="wikitable"
!Метрика
!Описание
|-
|Запросы
|Количество запросов, обрабатываемых клиентом в секунду.
|-
|Размер запроса
|Средний размер запроса за одну минуту.
|-
|Скорость передачи входящих / исходящих байтов
|Скорость обработки байтов клиентом.
|}

Версия 12:20, 6 июня 2024

Мониторинг Kafka

Apache Kafka - это распределенная шина сообщений для публикации и подписки с открытым исходным кодом, разработанная для того, чтобы быть быстрой, масштабируемой и долговечной. Ключ-АСТРОМ автоматически распознает процессы Kafka и мгновенно собирает их показатели на уровне процесса и кластера.

Информацию об общем мониторинге очереди сообщений Kafka см. в разделе Пользовательские службы обмена сообщениями.

Необходимые условия

  • Ключ-АСТРОМ версии не ниже 1.155
  • Apache Kafka или Confluent-supported Kafka версии не ниже 0.9.0.1
  • Если у вас более одного кластера Kafka, разделите кластеры на отдельные группы процессов с помощью переменной окружения в настройках Ключ-АСТРОМ

Активация

  1. Перейдите на вкладку Настройки.
  2. Выберите Мониторинг > Отслеживаемые технологии.
  3. Найдите строку Kafka и включите функцию Мониторинг окружения. После включения мониторинга Kafka Ключ-АСТРОМ автоматически активирует мониторинг Kafka на всех хостах и отслеживает все компоненты Kafka.

События

Имя Состояние Событие Dynatrace
Недостаточно реплицированные разделы Последователи разделов не синхронизированы с главным Характеристика (PERFORMANCE_EVENT)
Автономные разделы Главные разделы отсутствуют Характеристика (PERFORMANCE_EVENT)
Несоответствие контроллеров кластера Брокеры обнаруживают несколько контроллеров Ошибка (ERROR_EVENT)


Чтобы настроить пороговые значения обнаружения проблем для Kafka

  1. Перейдите в Настройки.
  2. Выберите Обнаружение аномалий > События расширений и найдите Kafka в списке.

Метрики

Кластерные метрики

Метрика Описание
Разделы Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру.
В разделе реплицированные разделы Количество недостаточно реплицированных разделов в кластере. Недостаточно реплицированные разделы указывают на то, что репликация продолжается, потребители не получают данные, а задержка растет.
Автономные разделы Количество разделов без активных ведущих и, следовательно, недоступных для записи.
Активные кластерные контроллеры Количество активных контроллеров в кластере. Выдается предупреждение, если совокупная сумма по всем брокерам в кластере отличается от 1, потому что в кластере должен быть ровно один контроллер.

Брокерские метрики

Метрика Описание
Среднее время Время, затраченное на удаление журнала раздела на диск, либо превышает время на удаление, либо превышает максимальный размер.
95-й процентиль 95-й процентиль времени очистки журнала. Даже небольшое изменение времени очистки журнала может существенно повлиять на производительность Kafka.
Скорость передачи входящих байтов Пропускная способность со скоростью передачи байтов от клиентов брокера (потребителей, производителей и соединителей).
Скорость передачи байтов Пропускная способность с частотой байтов исходящего брокера от клиентов (потребителей, производителей и соединителей).
Разделы Все реплики разделов, доступные на этом брокере. Ведущий раздел считается репликой разделов. Это должно быть равномерно по всему кластеру.
Реплицированные разделы Количество недостаточно реплицированных разделов.
Частота запросов на создание Частота запросов на создание.
Не удалось выполнить запрос Частота неудачных запросов на создание.
Создать задержку Задержка при создании.
Скорость обработки запросов Скорость обработки запросов
Неудачные запросы на создание Количество неудачных запросов на создание.
Уровень выбора лидера Уровень выборов повышается при сбоях брокеров.
Нечистый процент выборов Нечистый процент выборов.
Количество лидеров Лидеры разделов у этого брокера.
Размер очереди запросов Размер очереди запросов. Перегруженная очередь запросов не сможет обрабатывать входящие или исходящие запросы.
Количество сообщений в рейтинге Количество сообщений увеличилось.
Максимальное отставание подписчика Максимальная задержка в сообщениях между репликами подписчика и лидера. Это контролируется конфигурацией replica.lag.max.messages. Задержка измеряется как разница в смещении между брокером подписчика и брокером лидера. Максимальная задержка - это задержка раздела, который в наибольшей степени не синхронизирован.
ZooKeeper отключен Клиент ZooKeeper отключен от сети: клиент потерял соединение с сервером и пытается подключиться повторно. Срок действия сеанса не обязательно истек.
Срок действия ZooKeeper истекает Частота истечения срока действия сеанса ZooKeeper. По истечении сеанса у нас может произойти смена лидера и даже нового контроллера. Важно следить за количеством таких событий в кластере Kafka. Если общее количество данных велико:
  1. Проверьте работоспособность вашей сети
  2. Проверьте, нет ли проблем со сбором мусора, и настройте его соответствующим образом
  3. При необходимости увеличьте время ожидания сеанса, установив значение zookeeper.session.timeout.ms

Показатели запросов

Метрика Описание
Количество запросов в секунду Количество запросов в секунду.
Общее время на запрос Общее время на запрос.

Метрики Kafka для создания, использования и подключения

Метрика Описание
Запросы Количество запросов, обрабатываемых клиентом в секунду.
Размер запроса Средний размер запроса за одну минуту.
Скорость передачи входящих / исходящих байтов Скорость обработки байтов клиентом.