-
(venv1) root@3bdaf96b00b0:/workspace/MuseTalk# python -m scripts.inference --inference_config configs/inference/test.yaml
add ffmpeg to path
Loads checkpoint by local backend from path: ./models/dw…
-
当前我写的训练代码,每个batch中都是随机选择一个视频中的一张图片及对应音频。这样batch中不包含单个视频的一个片段。而Wav2Lip项目中,关于这块是要选择同一个视频的连续5帧,比如单卡batchsize=20,也就是4个视频片段共计20帧。
https://github.com/Rudrabha/Wav2Lip/blob/master/hq_wav2lip_train.py
请问M…
-
实时推理的场景中,两段视频分开两次生成,如何让最终生成的两个视频连接过渡的地方比较连贯呢。
BTW., 音频长度超过参考视频时,会将参考视频从头开始放,但是过渡那里做得很好,几乎看不出来跳帧,不知道实现原理是什么。同样的方法是否可以用在前后两个视频的生成也让他们保持连贯性。
-
- 生成数据:均使用的测试样例(video: sun.mp4 | audio: yongen.wav);
- 使用脚本:realtime_inference,已提前完成avater数据的抽取,仅仅进行语音片段生成;
- 问题1:202帧的片段,日志显示平均fps为77.5
- 此处为什么每四帧处理一次,且第一帧的处理速度要远远慢于后者(10 >> 100)?
- 问题2…
-
(1)项目提到要求hdtf训练集都处理成25fps,可以使用ffmpeg处理
```
ffmpeg -i input.mp4 -r 25 output.mp4
```
(2)原始视频中音频部分,都是44.1kHZ。音频部分是不是不需要调整
(3)推理代码中,音频部分是一秒50个mel特征,如果视频fps不能被50整除,是否会影响模型效果呢
```
center_i…
-
Would be greatly useful if it can work on animals.
-
I am trying with the attached files and even if I wait for 2 hours no progress. Am I doing something wrong
[image.zip](https://github.com/TMElyralab/MuseTalk/files/15075013/image.zip)
test.yaml
…
-
```python
for i, (whisper_batch, latent_batch) in enumerate(
tqdm(gen, total=int(np.ceil(float(video_num) / batch_size)))
):
audio_feature_batch = torch.from_numpy(whisper_batch)
audi…
-
Traceback (most recent call last):
File "/root/anaconda3/envs/musetalk/lib/python3.10/runpy.py", line 196, in _run_module_as_main
return _run_code(code, main_globals, None,
File "/root/anac…
-
推理代码中调用提取音频特征,musetalk/whisper/audio2feature.py,其中定位音频特征索引是center_idx = int(vid_idx*50/fps)
```
def get_sliced_feature(self,
feature_array,
…