aau-claaudia / aicloud

Everything related to aicloud
2 stars 0 forks source link

slurm job defaults #10

Closed fasmide closed 1 year ago

fasmide commented 3 years ago

We should set a default memory allocation - and also look into if its possible to change the default CPU allocation

jensentobias commented 2 years ago

Yes. After discussion with AA: (In danish)

Der er en del flere CPUer på DGX A100 per GPU, og også mere host RAM per GPU, så default værdierne kan godt være højere. Vi har tidligere arbejdet med 2/3 belægning ved defaults. Så er der lidt plads for at andre kan øge værdierne, hvis man finder det passende. Altså

CPUer (2 / 3) / #Antal GPUer = DefCpuPerGpu = 256 (2/3) / 8 ~ 20 CPUer per GPU

og

Total Mem (2 / 3) / #Antal GPUer = DefMemPerGpu = 980 (2/3) / 8 = 80 GB per GPU (det er også 2 x device memory - den fingerregel jeg har hørt, er mellem 2-3 gange host memory til device memory... men ved ikke helt hvor det kommer fra, men så har man lidt plads til at pipe data fra disk -> host memory -> device memory)

ThomasA commented 1 year ago

I believe, this was addressed by https://github.com/aau-claaudia/aicloud/pull/26