-
每次脸部发生扭动时口部区域会产生模糊,请问遇到这种情况该怎么解决呢
https://github.com/TMElyralab/MuseTalk/assets/77482412/9528da58-a78f-4d8e-9821-4f7326019177
-
python -m scripts.inference --inference_config results/musetalk_test_result.yaml
video in 25.0 FPS, audio idx in 50FPS
extracting landmarks...time consuming
reading images...
100%|██████████████…
ljx-s updated
4 months ago
-
(venv1) root@3bdaf96b00b0:/workspace/MuseTalk# python -m scripts.inference --inference_config configs/inference/test.yaml
add ffmpeg to path
Loads checkpoint by local backend from path: ./models/dw…
-
- 生成数据:均使用的测试样例(video: sun.mp4 | audio: yongen.wav);
- 使用脚本:realtime_inference,已提前完成avater数据的抽取,仅仅进行语音片段生成;
- 问题1:202帧的片段,日志显示平均fps为77.5
- 此处为什么每四帧处理一次,且第一帧的处理速度要远远慢于后者(10 >> 100)?
- 问题2…
-
实时推理的场景中,两段视频分开两次生成,如何让最终生成的两个视频连接过渡的地方比较连贯呢。
BTW., 音频长度超过参考视频时,会将参考视频从头开始放,但是过渡那里做得很好,几乎看不出来跳帧,不知道实现原理是什么。同样的方法是否可以用在前后两个视频的生成也让他们保持连贯性。
-
I am trying with the attached files and even if I wait for 2 hours no progress. Am I doing something wrong
[image.zip](https://github.com/TMElyralab/MuseTalk/files/15075013/image.zip)
test.yaml
…
-
(1)项目提到要求hdtf训练集都处理成25fps,可以使用ffmpeg处理
```
ffmpeg -i input.mp4 -r 25 output.mp4
```
(2)原始视频中音频部分,都是44.1kHZ。音频部分是不是不需要调整
(3)推理代码中,音频部分是一秒50个mel特征,如果视频fps不能被50整除,是否会影响模型效果呢
```
center_i…
-
```python
for i, (whisper_batch, latent_batch) in enumerate(
tqdm(gen, total=int(np.ceil(float(video_num) / batch_size)))
):
audio_feature_batch = torch.from_numpy(whisper_batch)
audi…
-
Would be greatly useful if it can work on animals.
-
Traceback (most recent call last):
File "/root/anaconda3/envs/musetalk/lib/python3.10/runpy.py", line 196, in _run_module_as_main
return _run_code(code, main_globals, None,
File "/root/anac…