NVIDIA NIM

Материал из Документация Ключ-АСТРОМ

NVIDIA NIM (NVIDIA Inference Microservices) — это набор микросервисов, которые ускоряют развертывание базовых моделей в любом облаке или центре обработки данных, оптимизируя инфраструктуру ИИ для повышения эффективности и экономичности, а также снижая затраты на оборудование и эксплуатацию.

Включить мониторинг

Kubernetes

Для мониторинга вашего кластера следуйте руководству по настройке Ключ-АСТРОМ в Kubernetes.

После этого добавьте следующие аннотации к вашим развертываниям NVIDIA NIM:

  • metrics.astromkey.com/scrape: "true"
  • metrics.astromkey.com/port: "8000"

OpenTelemetry Collector

Для развертывания сборщика следуйте руководству по установке OpenTelemetry Collector. При следующей конфигурации Collector будет собирать метрики ИИ каждые 10 секунд с конечной точки <NIM-endpoint>:8000.

receivers:

  prometheus:

    config:

      scrape_configs:

      - job_name: nim-metrics

        scrape_interval: 10s

        honor_labels: false

        static_configs:

          - targets:

              - ["<NIM-endpoint>:8000"]

processors:

  cumulativetodelta:

    max_staleness: 25h

extensions:

  health_check:

exporters:

  otlphttp:

    endpoint: ${env:DT_ENDPOINT}

    headers:

      Authorization: "Api-Token ${env:DT_API_TOKEN}"

service:

  extensions: [health_check]

    metrics:

      receivers: [prometheus]

      processors: [cumulativetodelta]

      exporters: [otlphttp]

Spans

Для GenAI Spans доступны следующие атрибуты.

Атрибут Тип Описание
gen_ai.completion.0.content string Полный ответ, полученный от модели GenAI.
gen_ai.completion.0.content_filter_results string Результаты фильтрации ответа, полученного от модели GenAI.
gen_ai.completion.0.finish_reason string Причина, по которой модель GenAI перестала выпускать токены.
gen_ai.completion.0.role string Роль, используемая моделью GenAI.
gen_ai.openai.api_base string Адрес сервера GenAI.
gen_ai.openai.api_version string Версия API GenAI.
gen_ai.openai.system_fingerprint string Отпечаток пальца ответа, сгенерированного моделью GenAI.
gen_ai.prompt.0.content string Полный текст запроса, отправленного модели GenAI.
gen_ai.prompt.0.role string Настройка роли для запроса GenAI.
gen_ai.prompt.prompt_filter_results string Результаты фильтрации запроса, отправленного модели GenAI.
gen_ai.request.max_tokens integer Максимальное количество токенов, которое модель генерирует для запроса.
gen_ai.request.model string Название модели GenAI, к которой направляется запрос.
gen_ai.request.temperature double Температурный параметр для запроса GenAI.
gen_ai.request.top_p double Параметр выборки top_p для запроса GenAI.
gen_ai.response.model string Название модели, которая сгенерировала ответ.
gen_ai.system string Продукт GenAI, идентифицированный с помощью клиентского или серверного программного обеспечения.
gen_ai.usage.completion_tokens integer Количество токенов, использованных в ответе GenAI (завершение).
gen_ai.usage.prompt_tokens integer Количество токенов, использованных во входных данных GenAI (подсказке).
llm.request.type string Тип выполняемой операции.

Метрики

Будут доступны следующие метрики:

Метрическая система Тип Единица Описание
e2e_request_latency_seconds histoGrailm s Гистограмма задержки сквозного запроса в секундах.
generation_tokens_total counter integer Количество обработанных токенов генерации
gpu_cache_usage_perc gauge integer Использование кэша ключ-значение графического процессора. 1 означает 100-процентное использование.
num_request_max counter integer Максимальное количество одновременно выполняющихся запросов
num_requests_running counter integer Количество запросов, выполняемых в данный момент на графическом процессоре.
num_requests_waiting counter integer Количество запросов, ожидающих обработки
prompt_tokens_total counter integer Количество обработанных токенов предварительного заполнения
request_failure_total counter integer Количество неудачных запросов; учитываются запросы с другими причинами завершения.
request_finish_total counter integer Количество выполненных запросов с указанием причины завершения.
request_generation_tokens histoGrailm integer Гистограмма количества обработанных токенов генерации.
request_prompt_tokens histoGrailm integer Гистограмма количества обработанных токенов предварительного заполнения
request_success_total counter integer Количество успешных запросов; учитываются запросы с причиной завершения "stop" или "length".
time_per_output_token_seconds histoGrailm s Гистограмма времени на каждый выходной токен в секундах
time_to_first_token_seconds histoGrailm s Гистограмма времени до появления первого токена в секундах.

Кроме того, предоставляются следующие метрики.

Метрическая система Тип Единица Описание
gen_ai.client.generation.choices counter none Количество вариантов выбора, возвращаемых в результате выполнения запроса на завершение чата.
gen_ai.client.operation.duration histogram s Продолжительность работы GenAI.
gen_ai.client.token.usage histogram none Количество используемых входных и выходных токенов.
llm.openai.embeddings.vector_size counter none Размер возвращаемого вектора.