Vchitect / Latte

Latte: Latent Diffusion Transformer for Video Generation.
Apache License 2.0
1.44k stars 147 forks source link

模型在ucf101上无法收敛 #84

Open renyuanzhe opened 1 month ago

renyuanzhe commented 1 month ago

最终loss在0.07这样,视频生成效果很差 下面是我的训练配置文件,是在一块3090上训练的

model config:

model: Latte-XL/2 num_frames: 16 image_size: 128 # choices=[256, 512] num_sampling_steps: 250 frame_interval: 3 fixed_spatial: False attention_bias: True learn_sigma: True extras: 2 # [1, 2] 1 unconditional generation, 2 class-conditional generation

train config:

save_ceph: True # important learning_rate: 1e-4 ckpt_every: 100000 #10000 clip_max_norm: 0.1 start_clip_iter: 100000 local_batch_size: 2 # important max_train_steps: 1000000 global_seed: 3407 num_workers: 8 log_every: 50 #50 lr_warmup_steps: 0 resume_from_checkpoint: gradient_accumulation_steps: 1 # TODO num_classes: 101

low VRAM and speed up training

use_compile: False mixed_precision: False enable_xformers_memory_efficient_attention: False gradient_checkpointing: False

maxin-cn commented 1 month ago

请问训练了多久呢?训练前期可以不使用ema测试 可以参考这个issue

renyuanzhe commented 1 month ago

请问训练了多久呢?训练前期可以不使用ema测试 可以参考这个issue

我训练了1000000 iter

maxin-cn commented 1 month ago

请问训练了多久呢?训练前期可以不使用ema测试 可以参考这个issue

我训练了1000000 iter

抱歉,单卡3090我不太清楚需要训练多久

renyuanzhe commented 1 month ago

请问训练了多久呢?训练前期可以不使用ema测试 可以参考这个issue

我训练了1000000 iter

抱歉,单卡3090我不太清楚需要训练多久

请问在完整数据集上大概需要多少轮epoch呢

maxin-cn commented 3 weeks ago

请问训练了多久呢?训练前期可以不使用ema测试 可以参考这个issue

我训练了1000000 iter

抱歉,单卡3090我不太清楚需要训练多久

请问在完整数据集上大概需要多少轮epoch呢

目前训练出来了么?我需要检查下之前的训练记录