Closed yacosdad closed 6 months ago
请问下你用的命令,以及跑的结果是怎么样的呢?方便上传下视频吗?
@xzqjack
python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev_referencenet --referencenet_model_name musev_referencenet --ip_adapter_model_name musev_referencenet -test_data_path ./configs/tasks/test.yaml --output_dir ./output --n_batch 3 --target_data test_1 --vision_clip_extractor_class_name ImageClipVisionFeatureExtractor --vision_clip_model_path ./checkpoints/IP-Adapter/models/image_encoder --time_size 120 --fps 12
@yacosdad n_batch=3,time_size=120,意味着 1、n_batch=1, 使用给定输入图作为输入视觉条件帧,并行去噪生成120帧,此时无明显误差累计;
所以如果只是眨眼、微笑这些,可以n_batch=1,time_size=360这种方式。
@xzqjack 我试了好多种参数,text2Video 和 vidio2Video 都试过了,效果都不太好,能留个微信帮我看看吗?邮箱发你了联系方式。
@yacosdad 你直接发这里更好,其他人可以一起参与讨论,也都可以看到。
你好,我发现prompt 中head wave触发效果不佳,人头基本没有摇晃动作,有没有什么建议 @xzqjack
i came across similar problems. I was trying to generate talking face video for MuseTalk, but MuseV failed to generate mouth movement with all given images.
The settings i used:
`
The command I used:
python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev_referencenet --referencenet_model_name musev_referencenet --ip_adapter_model_name musev_referencenet -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas asuka1 --vision_clip_extractor_class_name ImageClipVisionFeatureExtractor --vision_clip_model_path ./checkpoints/IP-Adapter/models/image_encoder --time_size 48 --fps 12
The images I used:
but MuseV failed to generate mouth movement with all given images.
MuseV can't generate talking face video, you can try to use Musetalk.
我的参数python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas yongen --time_size 60 --fps 12,视频时不动的
https://github.com/TMElyralab/MuseV/assets/31657105/b175ccc9-9ffc-4399-9fe0-36878f25515a
我的参数python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas yongen --time_size 60 --fps 12,视频时不动的
3.mp4
麻烦确认下有没有修改 img_weight、w_ind_noise等参数,他们会影响视频的变化。
我的参数python scripts/inference/text2video.py --sd_model_name majicmixRealv6Fp16 --unet_model_name musev -test_data_path ./configs/tasks/example.yaml --output_dir ./output --n_batch 1 --target_datas yongen --time_size 60 --fps 12,视频时不动的 3.mp4
麻烦确认下有没有修改 img_weight、w_ind_noise等参数,他们会影响视频的变化。
我找到问题出在哪里了模型权重下载的有问题,重新下载了
@eightmusic 找到问题就好,那我先关掉本issue了,有问题可以再开新issue。
@yacosdad n_batch=3,time_size=120,意味着 1、n_batch=1, 使用给定输入图作为输入视觉条件帧,并行去噪生成120帧,此时无明显误差累计; 2. n_batch=2,使用1中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为1中尾帧传播误差累计; 3. n_batch=3,使用2中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为2中尾帧加深误差累计。
所以如果只是眨眼、微笑这些,可以n_batch=1,time_size=360这种方式。
请问输出的视频时长是设置的哪个参数?
@tackhwa
总帧数大概是n_batch*time_size,存储fps,时长就是总帧数/fps。 n_batch和time_size参数各自的特点 就是引用中的样子。 1、n_batch=1, 使用给定输入图作为输入视觉条件帧,并行去噪生成120帧,此时无明显误差累计;
@tackhwa
总帧数大概是n_batch*time_size,存储fps,时长就是总帧数/fps。 n_batch和time_size参数各自的特点 就是引用中的样子。 1、n_batch=1, 使用给定输入图作为输入视觉条件帧,并行去噪生成120帧,此时无明显误差累计; 2. n_batch=2,使用1中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为1中尾帧传播误差累计; 3. n_batch=3,使用2中的尾帧作为视觉条件帧,并行去噪生成120帧,此时会因为2中尾帧加深误差累计。
好的,请问 gradio demo 里的height 和 Weight设置为 -1时就是用的原生图片的尺寸,在config file 里如何设置这个呢?
@tackhwa 应该是不设置,
@xzqjack 感谢回答,我还有个问题,text2video 的 prompt是针对 input image 还是 output video?,例如我想让图片里的人物挥手是需要填上 "waving hand"?,还是waving hand 这个描述的是input image 里的动作,实际output video 只有 eye blink 和 head wave?,如果我想让图片里的人物挥手是不是得用pose2video?
@tackhwa 针对视频的,text+image2video本身就有眨眼、挥手的能力,pose2video是text+image基础上 再+ controlnet,会有更具体、明确的动作指导,有这个先验信息会生成更好。
@tackhwa 针对视频的,text+image2video本身就有眨眼、挥手的能力,pose2video是text+image基础上 再+ controlnet,会有更具体、明确的动作指导,有这个先验信息会生成更好。
请问有身体晃动的控制参数吗
参数之间需要怎么设置,能不能说明下?