Project-HAMi / HAMi

Heterogeneous AI Computing Virtualization Middleware
http://project-hami.io/
Apache License 2.0
962 stars 199 forks source link

gpu monitor在上报指标时,加入gpu id字段 #632

Open asinglestep opened 1 day ago

asinglestep commented 1 day ago

Please provide an in-depth description of the question you have:

What do you think about this question?: gpu monitor在上报指标时,加入gpu id字段,方便统计某个pod使用哪个gpu

Environment:

Nimbus318 commented 1 day ago

有啊,Device_utilization_desc_of_container 和 Device_memory_desc_of_container 都有 deviceuuid 的,Pod 的 Name,Ns,Container 的 Name 相关信息都有的

asinglestep commented 1 day ago

Device_utilization_desc_of_container

image

有类似dcgm-exporter 的 gpu id 的字段吗?

Nimbus318 commented 1 day ago

deviceuuid 就是 dcgm-exporter 的 UUID:

Device_utilization_desc_of_container{..., deviceuuid="GPU-0aa6b97c-d386-26ba-a94a-b9d27c2e3a71", ...}

asinglestep commented 1 day ago

Device_utilization_desc_of_container

企业微信截图_560cc3d1-e9fa-4a60-9591-ba3622cd25c3

不是uuid,是前面这个id

Nimbus318 commented 1 day ago

目前没有直接提供这个 idx,我觉得可以通过 PromQL on (UUID) group_left 联合查询,具体怎么写这个 PromQL 可以问问 GPT,应该可以解决你的问题