NVIDIA NIM
NVIDIA NIM (NVIDIA Inference Microservices) — это набор микросервисов, которые ускоряют развертывание базовых моделей в любом облаке или центре обработки данных, оптимизируя инфраструктуру ИИ для повышения эффективности и экономичности, а также снижая затраты на оборудование и эксплуатацию.
Включить мониторинг
Kubernetes
Для мониторинга вашего кластера следуйте руководству по настройке Ключ-АСТРОМ в Kubernetes.
После этого добавьте следующие аннотации к вашим развертываниям NVIDIA NIM:
metrics.astromkey.com/scrape: "true"metrics.astromkey.com/port: "8000"
OpenTelemetry Collector
Для развертывания сборщика следуйте руководству по установке OpenTelemetry Collector. При следующей конфигурации Collector будет собирать метрики ИИ каждые 10 секунд с конечной точки <NIM-endpoint>:8000.
| receivers:
prometheus: config: scrape_configs: - job_name: nim-metrics scrape_interval: 10s honor_labels: false static_configs: - targets: - ["<NIM-endpoint>:8000"] processors: cumulativetodelta: max_staleness: 25h extensions: health_check: exporters: otlphttp: endpoint: ${env:DT_ENDPOINT} headers: Authorization: "Api-Token ${env:DT_API_TOKEN}" service: extensions: [health_check] metrics: receivers: [prometheus] processors: [cumulativetodelta] exporters: [otlphttp] |
Spans
Для GenAI Spans доступны следующие атрибуты.
| Атрибут | Тип | Описание |
|---|---|---|
gen_ai.completion.0.content
|
string | Полный ответ, полученный от модели GenAI. |
gen_ai.completion.0.content_filter_results
|
string | Результаты фильтрации ответа, полученного от модели GenAI. |
gen_ai.completion.0.finish_reason
|
string | Причина, по которой модель GenAI перестала выпускать токены. |
gen_ai.completion.0.role
|
string | Роль, используемая моделью GenAI. |
gen_ai.openai.api_base
|
string | Адрес сервера GenAI. |
gen_ai.openai.api_version
|
string | Версия API GenAI. |
gen_ai.openai.system_fingerprint
|
string | Отпечаток пальца ответа, сгенерированного моделью GenAI. |
gen_ai.prompt.0.content
|
string | Полный текст запроса, отправленного модели GenAI. |
gen_ai.prompt.0.role
|
string | Настройка роли для запроса GenAI. |
gen_ai.prompt.prompt_filter_results
|
string | Результаты фильтрации запроса, отправленного модели GenAI. |
gen_ai.request.max_tokens
|
integer | Максимальное количество токенов, которое модель генерирует для запроса. |
gen_ai.request.model
|
string | Название модели GenAI, к которой направляется запрос. |
gen_ai.request.temperature
|
double | Температурный параметр для запроса GenAI. |
gen_ai.request.top_p
|
double | Параметр выборки top_p для запроса GenAI. |
gen_ai.response.model
|
string | Название модели, которая сгенерировала ответ. |
gen_ai.system
|
string | Продукт GenAI, идентифицированный с помощью клиентского или серверного программного обеспечения. |
gen_ai.usage.completion_tokens
|
integer | Количество токенов, использованных в ответе GenAI (завершение). |
gen_ai.usage.prompt_tokens
|
integer | Количество токенов, использованных во входных данных GenAI (подсказке). |
llm.request.type
|
string | Тип выполняемой операции. |
Метрики
Будут доступны следующие метрики:
| Метрическая система | Тип | Единица | Описание |
|---|---|---|---|
e2e_request_latency_seconds
|
histoGrailm | s | Гистограмма задержки сквозного запроса в секундах. |
generation_tokens_total
|
counter | integer | Количество обработанных токенов генерации |
gpu_cache_usage_perc
|
gauge | integer | Использование кэша ключ-значение графического процессора. 1 означает 100-процентное использование. |
num_request_max
|
counter | integer | Максимальное количество одновременно выполняющихся запросов |
num_requests_running
|
counter | integer | Количество запросов, выполняемых в данный момент на графическом процессоре. |
num_requests_waiting
|
counter | integer | Количество запросов, ожидающих обработки |
prompt_tokens_total
|
counter | integer | Количество обработанных токенов предварительного заполнения |
request_failure_total
|
counter | integer | Количество неудачных запросов; учитываются запросы с другими причинами завершения. |
request_finish_total
|
counter | integer | Количество выполненных запросов с указанием причины завершения. |
request_generation_tokens
|
histoGrailm | integer | Гистограмма количества обработанных токенов генерации. |
request_prompt_tokens
|
histoGrailm | integer | Гистограмма количества обработанных токенов предварительного заполнения |
request_success_total
|
counter | integer | Количество успешных запросов; учитываются запросы с причиной завершения "stop" или "length". |
time_per_output_token_seconds
|
histoGrailm | s | Гистограмма времени на каждый выходной токен в секундах |
time_to_first_token_seconds
|
histoGrailm | s | Гистограмма времени до появления первого токена в секундах. |
Кроме того, предоставляются следующие метрики.
| Метрическая система | Тип | Единица | Описание |
|---|---|---|---|
gen_ai.client.generation.choices
|
counter | none
|
Количество вариантов выбора, возвращаемых в результате выполнения запроса на завершение чата. |
gen_ai.client.operation.duration
|
histogram | s
|
Продолжительность работы GenAI. |
gen_ai.client.token.usage
|
histogram | none
|
Количество используемых входных и выходных токенов. |
llm.openai.embeddings.vector_size
|
counter | none
|
Размер возвращаемого вектора. |