ai-forever / ru-gpts

Russian GPT3 models.
Apache License 2.0
2.08k stars 442 forks source link

CUDA out of memory #47

Closed Pro100rus32 closed 3 years ago

Pro100rus32 commented 3 years ago

Что то прям вообще сыро. Я не говорю о том что его вообще не запустить на этом колабе. image

Но вы даже на колабе не изменили нужные библиотеки, приходится вручную устанавливать древний torch...

Жаль что такой негативный опыт, надеялся на что то лучше.

OlegBEZb commented 3 years ago

@Pro100rus32 поначалу можно уменьшить block_size

JohnDoeDC commented 3 years ago

Причем тут вообще "сыро"? Вам очевидно указано что не хватает памяти в GPU. Вы какую модель пытайтесь в 12 гб "засунуть" ? Так же как указал @OlegBEZb пробуйте уменьшать block_size. Причем medium спокойно на колабе запускалась, для больших моделей нужны большие объемы видеопамяти, добро пожаловать в ML клуб, бади.

Pro100rus32 commented 3 years ago

Так много проблем я не где не встречал!

Уже ошибок 10 увидел, и при чём они рандомные, то в коде что то на ноль делиться, то библиотека не та, кпц)

Прошёл через рандом, и встретил опять рандомную ошибку:

Traceback (most recent call last):
  File "ru-gpts/pretrain_transformers.py", line 782, in <module>
    main()
  File "ru-gpts/pretrain_transformers.py", line 731, in main
    global_step, tr_loss = train(args, train_dataset, model, tokenizer)
  File "ru-gpts/pretrain_transformers.py", line 212, in train
    train_sampler = RandomSampler(train_dataset) if args.local_rank == -1 else DistributedSampler(train_dataset)
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/sampler.py", line 94, in __init__
    "value, but got num_samples={}".format(self.num_samples))
ValueError: num_samples should be a positive integer value, but got num_samples=0

Документации 0, нет инфы не как обучать, не как использовать.

JohnDoeDC commented 3 years ago

Вы элементарно не можете указать модель при запуске и считайте что виноват разработчик?

Pro100rus32 commented 3 years ago

Вы элементарно не можете указать модель при запуске и считайте что виноват разработчик?

Я вообще не вижу документации. На хабре даже делали так, что бы он отвечал, и не дополнял текст. Но как это реализовано - пусто. Всё только на словах. Здесь есть файл train.txt, вот что с ним делать? С помощь. него можно обучать? Тогда как заставить его не дополнять текст а отвечать на вопросы? Эх... Вот всегда так.