ВысокаяДоступность для дата-центров

Материал из Документация Ключ-АСТРОМ
Версия от 17:18, 15 сентября 2022; RGolovanov (обсуждение | вклад) (Новая страница: «'''Ключ-Астром ВысокаяДоступность''' — это готовое автономное решение, обеспечивающее по...»)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Ключ-Астром ВысокаяДоступность — это готовое автономное решение, обеспечивающее почти нулевое время простоя и позволяющее продолжать мониторинг без потери данных в сценариях отработки отказа.

Это решение обеспечивает экономию средств с точки зрения выделения вычислительных ресурсов и хранилища за счет устранения необходимости в отдельных резервных хостах аварийного восстановления и соответствующей инфраструктуре для хранения и передачи данных резервного копирования. Хотя дополнительные узлы в одноранговом центре обработки данных (ЦОД) положительно влияют на вычислительную мощность, доступную для кластера, это влияние нелинейно.

При планировании емкости узлы в дополнительном дата-центре следует рассматривать как избыточные, а не как узлы с увеличенной емкостью. Это связано с тем, что дополнительный дата-центр будет иметь копию всех данных Cassandra и Elasticsearch из исходного дата-центра.

Максимальное количество узлов, поддерживаемых кластерами высокой доступности Ключа-Астром, равно 30 (15 узлов на дата-центр).

Эффективный минимум — 6 узлов (3 узла на дата-центр). Оба дата-центра в кластере должны иметь симметричный размер.

Как исправить сегментированные кластеры

Если одна часть кластера теряет связь с другой частью кластера, это не обязательно означает, что эта часть кластера недоступна. Проблема может заключаться в сбоях подключения. Вам нужно определить, какая часть кластера будет выступать в качестве уцелевшей.

Короткие, до 3 часов, сбои в сети между центрами обработки данных восстанавливаются автоматически. Чтобы избежать несогласованности данных, в случае более длительных простоев мы рекомендуем отключать серверную службу на всех узлах в затронутом центре обработки данных. Вы можете запустить службы, когда сетевое подключение снова станет стабильным.

Чтобы справиться с ситуацией, когда одна часть кластера недоступна, Ключ-Астром Контроллер Задач отслеживает работоспособность всех узлов и автоматически назначает одну часть кластера основной (выживающей). Во время восстановления это обозначение используется для определения способа повторной синхронизации всех частей кластера. Это означает, что Ключ-Астром ВысокаяДоступность не поддерживается для полностью автономных управляемых кластеров.

Разделение и репликация данных

Используя виртуальные стойки, Ключ-Астром ВысокаяДоступность хранит три копии всех данных конфигурации, метрик и сеансов пользователей в каждом дата-центре. Это обеспечивает оптимальную производительность и надежность в сценариях отработки отказа.

Необработанные данные транзакций (такие как распределенные трассировки, стеки вызовов и операторы базы данных) распределяются случайным образом по всем дата-центрам, поэтому на каждом дата-центре всегда доступен набор данных. Данные синхронизируются асинхронно между дата-центрами. Это устраняет требование к задержке в 10 мс, которое применяется ко всем кластерам с несколькими дата-центрами.

Синхронизация данных спроектирована таким образом, чтобы свести к минимуму использование полосы пропускания между контроллерами домена и предотвратить потерю данных в случае выхода из строя одного из контроллеров домена. Во время перерывов в работе менее трех часов Ключ-Астром ВысокаяДоступность автоматически и прозрачно повторно синхронизирует данные между контроллерами домена. При простоях продолжительностью до трех дней команда Ключ-Астром Контроль Задач инициирует необходимые работы по ремонту и синхронизации. После этого неисправную часть кластера необходимо переустановить.

Маршрутизация данных телеметрии

Сетевые зоны можно использовать для управления потоком данных телеметрии к узлам кластера в различных дата-центрах. Несмотря на то, что Ключ-Астром ВысокаяДоступность реализует различные оптимизации для уменьшения трафика между дата-центрами, мы рекомендуем для избыточности данных разрешить АктивнымШлюзам отправлять данные на оба дата-центра. ЕдиныеАгенты и АктивныеШлюзы можно настроить так, чтобы они предпочитали определенные сетевые зоны, сохраняя при этом возможность аварийного переключения на другую часть кластера в случае сбоя дата-центра. Обратите внимание, что для этой цели также можно использовать балансировщики нагрузки. Для активно-пассивных развертываний приложений мы рекомендуем не отключать АктивныеШлюзы в пассивных частях развертывания. Это поддерживает работу всех частей инфраструктуры Ключ-Астром в случае аварийного восстановления и обеспечивает аварийное переключение без повторной настройки или повторного обнаружения.

Технические подробности

Для Dynatrace High Availability требуется ОС, поддерживающая cgroups версии 1.0 и systemd версии 219 или более поздней (например, RHEL/CentOS 7+).

Различные ноды будут продолжать взаимодействовать друг с другом через обычные порты, как описано ранее. Суть в том, что порты, которые необходимо открыть между нодами в одном контроллере домена, — это те же порты, которые необходимо открыть внутри кластера, если кластер охватывает два контроллера домена.

Соединения между нодами в разных дата-центрах должны быть зашифрованы. Ключ-Астром не создает и не устанавливает необходимые сертификаты для обеспечения этого — вам нужно будет сделать это вручную. Поддерживается двусторонняя задержка сети до 100 мс. Потребление полосы пропускания зависит от множества факторов.

Кластер с одним дата-центром (или кластер с несколькими дата-центрами, не зависящий от дата-центра) можно перенести на кластер высокой доступности с двумя дата-центрами. Для такого развертывания требуется лицензия. См. раздел Мониторинг приложений и инфраструктуры (хост-модули).

Ключ-Астром использует двоичный файл Elasticsearch Enterprise, встроенный в платформу. Для Elasticsearch Enterprise требуется подписка Elasticsearch Platinum.