hpcaitech / Open-Sora

Open-Sora: Democratizing Efficient Video Production for All
https://hpcaitech.github.io/Open-Sora/
Apache License 2.0
21.48k stars 2.06k forks source link

我想从头开始训练模型,不加入预训练模型,但是推理的效果不好 #384

Closed kawayi12318 closed 3 months ago

kawayi12318 commented 3 months ago

我使用训练的模型进行推理时,不加入预训练模型的效果如下:

https://github.com/hpcaitech/Open-Sora/assets/107163121/50383039-7dc0-4e66-9afb-9cca734615e9

效果不好的原因是什么呢?

zhengzangw commented 3 months ago

你是指你从头训练了一个模型吗?那可能是你训练的量太小了。

kawayi12318 commented 3 months ago

你是指你从头训练了一个模型吗?那可能是你训练的量太小了。

是的,我从头训练了一个模型,我设置了from_pretrained=None model = dict( type="STDiT-XL/2", space_scale=0.5, time_scale=1.0, from_pretrained=None, enable_flashattn=True, enable_layernorm_kernel=True, ) 但是在step=68000的时候效果依旧不好

https://github.com/hpcaitech/Open-Sora/assets/107163121/cf213558-7924-4bf6-bf9b-0f560bcc1f35

zhengzangw commented 3 months ago

如果是从头训练的话,68k 还是很小的。而且你没有用 image diffusion model 权重做初始化的话,学起来就更慢了。

kawayi12318 commented 3 months ago

如果是从头训练的话,68k 还是很小的。而且你没有用 image diffusion model 权重做初始化的话,学起来就更慢了。

好的,我会继续训练观察效果,感谢你的回复

AlphaNext commented 2 months ago

如果是从头训练的话,68k 还是很小的。而且你没有用 image diffusion model 权重做初始化的话,学起来就更慢了。

@zhengzangw 请问从代码的哪块导入image diffusion model的权重呢?