image_size = [256,512] - Githubissues

likeatingcake commented 3 months ago

我尝试调整image_size为512来得到更高分辨率的视频，出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash sample/ffs.sh Using Ema! Traceback (most recent call last): File "/home/yueyc/Latte/sample/sample.py", line 143, in main(omega_conf) File "/home/yueyc/Latte/sample/sample.py", line 67, in main model.load_state_dict(state_dict) File "/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py", line 2041, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for Latte: size mismatch for pos_embed: copying a param with shape torch.Size([1, 256, 1152]) from checkpoint, the shape in current model is torch.Size([1, 1024, 1152]).

请问预训练的模型ffs.pt采用的分辨率是256px吗，是不是代表如果要采样得到更高分辨率的视频，就需要训练一个512px分辨率的视频

maxin-cn commented 3 months ago

我尝试调整image_size为512来得到更高分辨率的视频，出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash sample/ffs.sh Using Ema! Traceback (most recent call last): File "/home/yueyc/Latte/sample/sample.py", line 143, in main(omega_conf) File "/home/yueyc/Latte/sample/sample.py", line 67, in main model.load_state_dict(state_dict) File "/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py", line 2041, in load_state_dict raise RuntimeError('Error(s) in loading state_dict for {}:\n\t{}'.format( RuntimeError: Error(s) in loading state_dict for Latte: size mismatch for pos_embed: copying a param with shape torch.Size([1, 256, 1152]) from checkpoint, the shape in current model is torch.Size([1, 1024, 1152]).

请问预训练的模型ffs.pt采用的分辨率是256px吗，是不是代表如果要采样得到更高分辨率的视频，就需要训练一个512px分辨率的视频

Yes, all except LatteT2V are trained on 256 × 256 pixels. Maybe you can see if you can get a higher-resolution video without training.

likeatingcake commented 3 months ago

我尝试将 image_size 调整为 512 来获得更高分辨率的视频，出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema！回溯（最近一次调用最后一次）一次）：文件“/home/yueyc/Latte/sample/sample.py”，第 143 行，在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”，第 67 行，在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”，第 2041 行，在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误：\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误：pos_embed 大小不匹配：复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始，当前模型中的形状为torch.Size([1, 1024, 1152])。请问预训练的模型ffs.pt采用的分辨率是256px吗，不是代表如果要采集获得更高分辨率的视频，就需要训练一个512px分辨率的视频

是的，除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好，请问ucf101.pt模型支持微调吗

maxin-cn commented 3 months ago

我尝试将 image_size 调整为 512 来获得更高分辨率的视频，出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema！回溯（最近一次调用最后一次）一次）：文件“/home/yueyc/Latte/sample/sample.py”，第 143 行，在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”，第 67 行，在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”，第 2041 行，在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误：\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误：pos_embed 大小不匹配：复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始，当前模型中的形状为torch.Size([1, 1024, 1152])。请问预训练的模型ffs.pt采用的分辨率是256px吗，不是代表如果要采集获得更高分辨率的视频，就需要训练一个512px分辨率的视频

是的，除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好，请问ucf101.pt模型支持微调吗

当然可以finetune ucf101.pt这个模型

maxin-cn commented 2 months ago

我尝试将 image_size 调整为 512 来获得更高分辨率的视频，出现错误 (latte) yueyc@super-AS-4124GS-TNR:~/Latte$ bash Sample/ffs.sh 使用 Ema！回溯（最近一次调用最后一次）一次）：文件“/home/yueyc/Latte/sample/sample.py”，第 143 行，在 main(omega_conf) 文件“/home/yueyc/Latte/sample/sample.py”，第 67 行，在主model.load_state_dict(state_dict) 文件“/home/yueyc/anaconda3/envs/latte/lib/python3.11/site-packages/torch/nn/modules/module.py”，第 2041 行，在 load_state_dict 引发 RuntimeError ('为 {} 加载 state_dict 时错误：\n\t{}'.format( RuntimeError: 为 Latte 加载 state_dict 时错误：pos_embed 大小不匹配：复制形状为 torch.Size([ 1, 256, 1152]) 从检查点开始，当前模型中的形状为torch.Size([1, 1024, 1152])。请问预训练的模型ffs.pt采用的分辨率是256px吗，不是代表如果要采集获得更高分辨率的视频，就需要训练一个512px分辨率的视频

是的，除了LatteT2V训练以外的所有模型都在256 × 256像素上进行训练。也许你可以看看是否可以在不的情况下获得更高分辨率的视频。

你好，请问ucf101.pt模型支持微调吗

当然可以finetune ucf101.pt这个模型

你可以使用我们提供的train.py去微调该模型

Vchitect / Latte

image_size = [256,512] #62