TMElyralab / MuseV

MuseV: Infinite-length and High Fidelity Virtual Human Video Generation with Visual Conditioned Parallel Denoising
Other
2.09k stars 212 forks source link

生成结果眨眼和头部摆动都和示例差很远 #74

Closed yacosdad closed 1 month ago

yacosdad commented 2 months ago

参数之间需要怎么设置,能不能说明下?

xzqjack commented 2 months ago

请问下你用的命令,以及跑的结果是怎么样的呢?方便上传下视频吗?

yacosdad commented 2 months ago

@xzqjack

python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev_referencenet --referencenet_model_name musev_referencenet --ip_adapter_model_name musev_referencenet -test_data_path ./configs/tasks/test.yaml --output_dir ./output --n_batch 3 --target_data test_1 --vision_clip_extractor_class_name ImageClipVisionFeatureExtractor --vision_clip_model_path ./checkpoints/IP-Adapter/models/image_encoder --time_size 120 --fps 12

xzqjack commented 2 months ago

@yacosdad n_batch=3,time_size=120,意味着 1、n_batch=1, 使用给定输入图作为输入视觉条件帧,并行去噪生成120帧,此时无明显误差累计;

  1. n_batch=2,使用1中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为1中尾帧传播误差累计;
  2. n_batch=3,使用2中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为2中尾帧加深误差累计。

所以如果只是眨眼、微笑这些,可以n_batch=1,time_size=360这种方式。

yacosdad commented 2 months ago

@xzqjack 我试了好多种参数,text2Video 和 vidio2Video 都试过了,效果都不太好,能留个微信帮我看看吗?邮箱发你了联系方式。

xzqjack commented 2 months ago

@yacosdad 你直接发这里更好,其他人可以一起参与讨论,也都可以看到。

xiao-keeplearning commented 2 months ago

你好,我发现prompt 中head wave触发效果不佳,人头基本没有摇晃动作,有没有什么建议 @xzqjack

SystemErrorWang commented 2 months ago

i came across similar problems. I was trying to generate talking face video for MuseTalk, but MuseV failed to generate mouth movement with all given images.

The settings i used:

`

The command I used:

python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev_referencenet --referencenet_model_name musev_referencenet --ip_adapter_model_name musev_referencenet -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas asuka1 --vision_clip_extractor_class_name ImageClipVisionFeatureExtractor --vision_clip_model_path ./checkpoints/IP-Adapter/models/image_encoder --time_size 48 --fps 12

The images I used: asuka1 asuka2 ayanami1 ayanami2

xiao-keeplearning commented 2 months ago

but MuseV failed to generate mouth movement with all given images.

MuseV can't generate talking face video, you can try to use Musetalk.

eightmusic commented 1 month ago

我的参数python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas yongen --time_size 60 --fps 12,视频时不动的

https://github.com/TMElyralab/MuseV/assets/31657105/b175ccc9-9ffc-4399-9fe0-36878f25515a

xzqjack commented 1 month ago

我的参数python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas yongen --time_size 60 --fps 12,视频时不动的

3.mp4

麻烦确认下有没有修改 img_weight、w_ind_noise等参数,他们会影响视频的变化。

eightmusic commented 1 month ago

我的参数python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas yongen --time_size 60 --fps 12,视频时不动的 3.mp4

麻烦确认下有没有修改 img_weight、w_ind_noise等参数,他们会影响视频的变化。

我找到问题出在哪里了模型权重下载的有问题,重新下载了

xzqjack commented 1 month ago

@eightmusic 找到问题就好,那我先关掉本issue了,有问题可以再开新issue。

tackhwa commented 1 month ago

@yacosdad n_batch=3,time_size=120,意味着 1、n_batch=1, 使用给定输入图作为输入视觉条件帧,并行去噪生成120帧,此时无明显误差累计; 2. n_batch=2,使用1中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为1中尾帧传播误差累计; 3. n_batch=3,使用2中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为2中尾帧加深误差累计。

所以如果只是眨眼、微笑这些,可以n_batch=1,time_size=360这种方式。

请问输出的视频时长是设置的哪个参数?

xzqjack commented 1 month ago

@tackhwa

总帧数大概是n_batch*time_size,存储fps,时长就是总帧数/fps。 n_batch和time_size参数各自的特点 就是引用中的样子。 1、n_batch=1, 使用给定输入图作为输入视觉条件帧,并行去噪生成120帧,此时无明显误差累计;

  1. n_batch=2,使用1中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为1中尾帧传播误差累计;
  2. n_batch=3,使用2中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为2中尾帧加深误差累计。
tackhwa commented 1 month ago

@tackhwa

总帧数大概是n_batch*time_size,存储fps,时长就是总帧数/fps。 n_batch和time_size参数各自的特点 就是引用中的样子。 1、n_batch=1, 使用给定输入图作为输入视觉条件帧,并行去噪生成120帧,此时无明显误差累计; 2. n_batch=2,使用1中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为1中尾帧传播误差累计; 3. n_batch=3,使用2中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为2中尾帧加深误差累计。

好的,请问 gradio demo 里的height 和 Weight设置为 -1时就是用的原生图片的尺寸,在config file 里如何设置这个呢?

xzqjack commented 1 month ago

@tackhwa 应该是不设置,

tackhwa commented 1 month ago

@xzqjack 感谢回答,我还有个问题,text2video 的 prompt是针对 input image 还是 output video?,例如我想让图片里的人物挥手是需要填上 "waving hand"?,还是waving hand 这个描述的是input image 里的动作,实际output video 只有 eye blink 和 head wave?,如果我想让图片里的人物挥手是不是得用pose2video?

xzqjack commented 3 weeks ago

@tackhwa 针对视频的,text+image2video本身就有眨眼、挥手的能力,pose2video是text+image基础上 再+ controlnet,会有更具体、明确的动作指导,有这个先验信息会生成更好。

hyqlat commented 1 week ago

@tackhwa 针对视频的,text+image2video本身就有眨眼、挥手的能力,pose2video是text+image基础上 再+ controlnet,会有更具体、明确的动作指导,有这个先验信息会生成更好。

请问有身体晃动的控制参数吗