MERA (Multimodal Evaluation for Russian-language Architectures) is a new open benchmark for the Russian language for evaluating fundamental models.
Большие модели, не влезающие в одну карту, не параллелятся на несколько #19

Closed preduct0r closed 1 month ago

preduct0r commented 1 month ago

slurmstepd: error: JOB 2971874 ON sc34 CANCELLED AT 2024-05-12T23:49:39 slurmstepd: error: Detected 1 oom_kill event in StepId=2971874.batch. Some of the step tasks have been OOM Killed.

ситуация одинакова для 1,2,3 карт A100. Модель

LSinev commented 1 month ago

Опишите, пожалуйста, подробнее, как запускали. Чтобы мы смогли воспроизвести и попробовать подебажить. И протестируйте ещё на новой ветке

preduct0r commented 1 month ago

Помогло здесь выставить device_map="auto" и torch_dtype=torch.bfloat16 if torch.cuda.is_bf16_supported() else torch.float16