生成结果眨眼和头部摆动都和示例差很远

yacosdad commented 7 months ago

参数之间需要怎么设置，能不能说明下？

xzqjack commented 7 months ago

请问下你用的命令，以及跑的结果是怎么样的呢？方便上传下视频吗？

yacosdad commented 7 months ago

@xzqjack

python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev_referencenet --referencenet_model_name musev_referencenet --ip_adapter_model_name musev_referencenet -test_data_path ./configs/tasks/test.yaml --output_dir ./output --n_batch 3 --target_data test_1 --vision_clip_extractor_class_name ImageClipVisionFeatureExtractor --vision_clip_model_path ./checkpoints/IP-Adapter/models/image_encoder --time_size 120 --fps 12

condition_images: ./data/test/test_3.png eye_blinks_factor: 0.8 height: 1308 img_length_ratio: 0.957 ipadapter_image: ${.condition_images} name: test_1 prompt: (masterpiece, best quality, highres:1),(1girl, solo:1),(beautiful face, soft skin, costume:1),(eye blinks:{eye_blinks_factor}),(head wave:0.8) refer_image: ${.condition_images} video_path: null width: 736

xzqjack commented 7 months ago

@yacosdad n_batch=3，time_size=120，意味着 1、n_batch=1, 使用给定输入图作为输入视觉条件帧，并行去噪生成120帧，此时无明显误差累计；

n_batch=2，使用1中的尾帧作为视觉条件帧，并行去噪生成120帧，此时会因为1中尾帧传播误差累计；
n_batch=3，使用2中的尾帧作为视觉条件帧，并行去噪生成120帧，此时会因为2中尾帧加深误差累计。

所以如果只是眨眼、微笑这些，可以n_batch=1，time_size=360这种方式。

yacosdad commented 7 months ago

@xzqjack 我试了好多种参数，text2Video 和 vidio2Video 都试过了，效果都不太好，能留个微信帮我看看吗？邮箱发你了联系方式。

xzqjack commented 7 months ago

@yacosdad 你直接发这里更好，其他人可以一起参与讨论，也都可以看到。

xiao-keeplearning commented 6 months ago

你好，我发现prompt 中head wave触发效果不佳，人头基本没有摇晃动作，有没有什么建议 @xzqjack

SystemErrorWang commented 6 months ago

i came across similar problems. I was trying to generate talking face video for MuseTalk, but MuseV failed to generate mouth movement with all given images.

The settings i used:

`

condition_images: ./data/images/asuka1.jpg eye_blinks_factor: 1.8 height: 800 width: 600 img_length_ratio: 1.0 ipadapter_image: ${.condition_images} name: asuka1 prompt: (masterpiece, best quality, highres:1),(1girl, solo:1),(whisper, mouth moving, talking:1.8),(head wave:1.3) refer_image: ${.condition_images} video_path: null `

The command I used:

python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev_referencenet --referencenet_model_name musev_referencenet --ip_adapter_model_name musev_referencenet -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas asuka1 --vision_clip_extractor_class_name ImageClipVisionFeatureExtractor --vision_clip_model_path ./checkpoints/IP-Adapter/models/image_encoder --time_size 48 --fps 12

The images I used: asuka1 asuka2 ayanami1 ayanami2

xiao-keeplearning commented 6 months ago

but MuseV failed to generate mouth movement with all given images.

MuseV can't generate talking face video, you can try to use Musetalk.

eightmusic commented 6 months ago

我的参数python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas yongen --time_size 60 --fps 12，视频时不动的

https://github.com/TMElyralab/MuseV/assets/31657105/b175ccc9-9ffc-4399-9fe0-36878f25515a

xzqjack commented 6 months ago

我的参数python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas yongen --time_size 60 --fps 12，视频时不动的

3.mp4

麻烦确认下有没有修改 img_weight、w_ind_noise等参数，他们会影响视频的变化。

eightmusic commented 6 months ago

我的参数python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas yongen --time_size 60 --fps 12，视频时不动的 3.mp4

麻烦确认下有没有修改 img_weight、w_ind_noise等参数，他们会影响视频的变化。

我找到问题出在哪里了模型权重下载的有问题，重新下载了

xzqjack commented 6 months ago

@eightmusic 找到问题就好，那我先关掉本issue了，有问题可以再开新issue。

tackhwa commented 5 months ago

@yacosdad n_batch=3，time_size=120，意味着 1、n_batch=1, 使用给定输入图作为输入视觉条件帧，并行去噪生成120帧，此时无明显误差累计； 2. n_batch=2，使用1中的尾帧作为视觉条件帧，并行去噪生成120帧，此时会因为1中尾帧传播误差累计； 3. n_batch=3，使用2中的尾帧作为视觉条件帧，并行去噪生成120帧，此时会因为2中尾帧加深误差累计。

所以如果只是眨眼、微笑这些，可以n_batch=1，time_size=360这种方式。

请问输出的视频时长是设置的哪个参数？

xzqjack commented 5 months ago

@tackhwa

总帧数大概是n_batch*time_size，存储fps，时长就是总帧数/fps。 n_batch和time_size参数各自的特点就是引用中的样子。 1、n_batch=1, 使用给定输入图作为输入视觉条件帧，并行去噪生成120帧，此时无明显误差累计；

n_batch=2，使用1中的尾帧作为视觉条件帧，并行去噪生成120帧，此时会因为1中尾帧传播误差累计；
n_batch=3，使用2中的尾帧作为视觉条件帧，并行去噪生成120帧，此时会因为2中尾帧加深误差累计。

tackhwa commented 5 months ago

@tackhwa

总帧数大概是n_batch*time_size，存储fps，时长就是总帧数/fps。 n_batch和time_size参数各自的特点就是引用中的样子。 1、n_batch=1, 使用给定输入图作为输入视觉条件帧，并行去噪生成120帧，此时无明显误差累计； 2. n_batch=2，使用1中的尾帧作为视觉条件帧，并行去噪生成120帧，此时会因为1中尾帧传播误差累计； 3. n_batch=3，使用2中的尾帧作为视觉条件帧，并行去噪生成120帧，此时会因为2中尾帧加深误差累计。

好的，请问 gradio demo 里的height 和 Weight设置为 -1时就是用的原生图片的尺寸，在config file 里如何设置这个呢？

xzqjack commented 5 months ago

@tackhwa 应该是不设置，

tackhwa commented 5 months ago

@xzqjack 感谢回答，我还有个问题，text2video 的 prompt是针对 input image 还是 output video？，例如我想让图片里的人物挥手是需要填上 "waving hand"？，还是waving hand 这个描述的是input image 里的动作，实际output video 只有 eye blink 和 head wave?，如果我想让图片里的人物挥手是不是得用pose2video？

xzqjack commented 5 months ago

@tackhwa 针对视频的，text+image2video本身就有眨眼、挥手的能力，pose2video是text+image基础上再+ controlnet，会有更具体、明确的动作指导，有这个先验信息会生成更好。

hyqlat commented 4 months ago

@tackhwa 针对视频的，text+image2video本身就有眨眼、挥手的能力，pose2video是text+image基础上再+ controlnet，会有更具体、明确的动作指导，有这个先验信息会生成更好。

请问有身体晃动的控制参数吗

TMElyralab / MuseV

生成结果眨眼和头部摆动都和示例差很远 #74