Vchitect / Latte

Latte: Latent Diffusion Transformer for Video Generation.
Apache License 2.0
1.44k stars 147 forks source link

image_size = [256,512] #62

Open likeatingcake opened 3 months ago

likeatingcake commented 3 months ago

我尝试调整image_size为512来得到更高分辨率的视频,出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash sample/ffs.sh Using Ema! Traceback (most recent call last): File "/home/yueyc/Latte/sample/sample.py", line 143, in main(omega_conf) File "/home/yueyc/Latte/sample/sample.py", line 67, in main model.load_state_dict(state_dict) File "/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py", line 2041, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for Latte: size mismatch for pos_embed: copying a param with shape torch.Size([1, 256, 1152]) from checkpoint, the shape in current model is torch.Size([1, 1024, 1152]).

请问预训练的模型ffs.pt采用的分辨率是256px吗,是不是代表如果要采样得到更高分辨率的视频,就需要训练一个512px分辨率的视频

maxin-cn commented 3 months ago

我尝试调整image_size为512来得到更高分辨率的视频,出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash sample/ffs.sh Using Ema! Traceback (most recent call last): File "/home/yueyc/Latte/sample/sample.py", line 143, in main(omega_conf) File "/home/yueyc/Latte/sample/sample.py", line 67, in main model.load_state_dict(state_dict) File "/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py", line 2041, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for Latte: size mismatch for pos_embed: copying a param with shape torch.Size([1, 256, 1152]) from checkpoint, the shape in current model is torch.Size([1, 1024, 1152]).

请问预训练的模型ffs.pt采用的分辨率是256px吗,是不是代表如果要采样得到更高分辨率的视频,就需要训练一个512px分辨率的视频

Yes, all except LatteT2V are trained on 256 × 256 pixels. Maybe you can see if you can get a higher-resolution video without training.

likeatingcake commented 3 months ago

我尝试将 image_size 调整为 512 来获得更高分辨率的视频,出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema!回溯(最近一次调用最后一次)一次):文件“/home/yueyc/Latte/sample/sample.py”,第 143 行,在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”,第 67 行,在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”,第 2041 行,在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误:\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误:pos_embed 大小不匹配:复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始,当前模型中的形状为torch.Size([1, 1024, 1152])。 请问预训练的模型ffs.pt采用的分辨率是256px吗,不是代表如果要采集获得更高分辨率的视频,就需要训练一个512px分辨率的视频

是的,除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好,请问ucf101.pt模型支持微调吗

maxin-cn commented 3 months ago

我尝试将 image_size 调整为 512 来获得更高分辨率的视频,出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema!回溯(最近一次调用最后一次)一次):文件“/home/yueyc/Latte/sample/sample.py”,第 143 行,在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”,第 67 行,在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”,第 2041 行,在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误:\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误:pos_embed 大小不匹配:复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始,当前模型中的形状为torch.Size([1, 1024, 1152])。 请问预训练的模型ffs.pt采用的分辨率是256px吗,不是代表如果要采集获得更高分辨率的视频,就需要训练一个512px分辨率的视频

是的,除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好,请问ucf101.pt模型支持微调吗

当然可以finetune ucf101.pt这个模型

maxin-cn commented 2 months ago

我尝试将 image_size 调整为 512 来获得更高分辨率的视频,出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema!回溯(最近一次调用最后一次)一次):文件“/home/yueyc/Latte/sample/sample.py”,第 143 行,在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”,第 67 行,在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”,第 2041 行,在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误:\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误:pos_embed 大小不匹配:复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始,当前模型中的形状为torch.Size([1, 1024, 1152])。 请问预训练的模型ffs.pt采用的分辨率是256px吗,不是代表如果要采集获得更高分辨率的视频,就需要训练一个512px分辨率的视频

是的,除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好,请问ucf101.pt模型支持微调吗

当然可以finetune ucf101.pt这个模型

你可以使用我们提供的train.py去微调该模型