NVIDIA NIM

NVIDIA NIM (NVIDIA Inference Microservices) — это набор микросервисов, которые ускоряют развертывание базовых моделей в любом облаке или центре обработки данных, оптимизируя инфраструктуру ИИ для повышения эффективности и экономичности, а также снижая затраты на оборудование и эксплуатацию.

Включить мониторинг

Kubernetes

Для мониторинга вашего кластера следуйте руководству по настройке Ключ-АСТРОМ в Kubernetes.

После этого добавьте следующие аннотации к вашим развертываниям NVIDIA NIM:

metrics.astromkey.com/scrape: "true"
metrics.astromkey.com/port: "8000"

OpenTelemetry Collector

Для развертывания сборщика следуйте руководству по установке OpenTelemetry Collector. При следующей конфигурации Collector будет собирать метрики ИИ каждые 10 секунд с конечной точки <NIM-endpoint>:8000.

receivers: prometheus: config: scrape_configs: - job_name: nim-metrics scrape_interval: 10s honor_labels: false static_configs: - targets: - ["<NIM-endpoint>:8000"] processors: cumulativetodelta: max_staleness: 25h extensions: health_check: exporters: otlphttp: endpoint: ${env:DT_ENDPOINT} headers: Authorization: "Api-Token ${env:DT_API_TOKEN}" service: extensions: [health_check] metrics: receivers: [prometheus] processors: [cumulativetodelta] exporters: [otlphttp]

Spans

Для GenAI Spans доступны следующие атрибуты.

Атрибут	Тип	Описание
`gen_ai.completion.0.content`	string	Полный ответ, полученный от модели GenAI.
`gen_ai.completion.0.content_filter_results`	string	Результаты фильтрации ответа, полученного от модели GenAI.
`gen_ai.completion.0.finish_reason`	string	Причина, по которой модель GenAI перестала выпускать токены.
`gen_ai.completion.0.role`	string	Роль, используемая моделью GenAI.
`gen_ai.openai.api_base`	string	Адрес сервера GenAI.
`gen_ai.openai.api_version`	string	Версия API GenAI.
`gen_ai.openai.system_fingerprint`	string	Отпечаток пальца ответа, сгенерированного моделью GenAI.
`gen_ai.prompt.0.content`	string	Полный текст запроса, отправленного модели GenAI.
`gen_ai.prompt.0.role`	string	Настройка роли для запроса GenAI.
`gen_ai.prompt.prompt_filter_results`	string	Результаты фильтрации запроса, отправленного модели GenAI.
`gen_ai.request.max_tokens`	integer	Максимальное количество токенов, которое модель генерирует для запроса.
`gen_ai.request.model`	string	Название модели GenAI, к которой направляется запрос.
`gen_ai.request.temperature`	double	Температурный параметр для запроса GenAI.
`gen_ai.request.top_p`	double	Параметр выборки top_p для запроса GenAI.
`gen_ai.response.model`	string	Название модели, которая сгенерировала ответ.
`gen_ai.system`	string	Продукт GenAI, идентифицированный с помощью клиентского или серверного программного обеспечения.
`gen_ai.usage.completion_tokens`	integer	Количество токенов, использованных в ответе GenAI (завершение).
`gen_ai.usage.prompt_tokens`	integer	Количество токенов, использованных во входных данных GenAI (подсказке).
`llm.request.type`	string	Тип выполняемой операции.

Метрики

Будут доступны следующие метрики:

Метрическая система	Тип	Единица	Описание
`e2e_request_latency_seconds`	histoGrailm	s	Гистограмма задержки сквозного запроса в секундах.
`generation_tokens_total`	counter	integer	Количество обработанных токенов генерации
`gpu_cache_usage_perc`	gauge	integer	Использование кэша ключ-значение графического процессора. 1 означает 100-процентное использование.
`num_request_max`	counter	integer	Максимальное количество одновременно выполняющихся запросов
`num_requests_running`	counter	integer	Количество запросов, выполняемых в данный момент на графическом процессоре.
`num_requests_waiting`	counter	integer	Количество запросов, ожидающих обработки
`prompt_tokens_total`	counter	integer	Количество обработанных токенов предварительного заполнения
`request_failure_total`	counter	integer	Количество неудачных запросов; учитываются запросы с другими причинами завершения.
`request_finish_total`	counter	integer	Количество выполненных запросов с указанием причины завершения.
`request_generation_tokens`	histoGrailm	integer	Гистограмма количества обработанных токенов генерации.
`request_prompt_tokens`	histoGrailm	integer	Гистограмма количества обработанных токенов предварительного заполнения
`request_success_total`	counter	integer	Количество успешных запросов; учитываются запросы с причиной завершения "stop" или "length".
`time_per_output_token_seconds`	histoGrailm	s	Гистограмма времени на каждый выходной токен в секундах
`time_to_first_token_seconds`	histoGrailm	s	Гистограмма времени до появления первого токена в секундах.

Кроме того, предоставляются следующие метрики.

Метрическая система	Тип	Единица	Описание
`gen_ai.client.generation.choices`	counter	`none`	Количество вариантов выбора, возвращаемых в результате выполнения запроса на завершение чата.
`gen_ai.client.operation.duration`	histogram	`s`	Продолжительность работы GenAI.
`gen_ai.client.token.usage`	histogram	`none`	Количество используемых входных и выходных токенов.
`llm.openai.embeddings.vector_size`	counter	`none`	Размер возвращаемого вектора.

Аноним

Поиск

NVIDIA NIM

Пространства имён

Ещё

Действия на странице

Содержание

Включить мониторинг

Kubernetes

OpenTelemetry Collector

Spans

Метрики

Навигация

Навигация

Вики-инструменты

Вики-инструменты

Аноним

Поиск

NVIDIA NIM

Включить мониторинг

Kubernetes

OpenTelemetry Collector

Spans

Метрики

Навигация

Вики-инструменты

Инструменты для страниц