yzhou359 / MakeItTalk

Other
946 stars 215 forks source link

输入中文音频嘴型对不上以及性能如何优化 #23

Closed iamchenxin-coder closed 3 years ago

iamchenxin-coder commented 3 years ago

作者您好,我对你MakeItTalk很感兴趣,但是我被两个问题所困扰,第一个问题是我输入的中文音频和嘴型对不上,这个问题从何入手去定位?第二个问题是我输入一段24s的音频,生成的out.mp4所需要的时间在170-190s左右,时间有点太长了,这个性能能否优化到50%,请问如何优化呢?

yzhou359 commented 3 years ago

您好,1)你们可以尝试在中文集上重新训练模型。2)生成主要消耗的时间在image2image translation网络上,可以考虑用比较大的batch进行测试,以及考虑把网络结构缩小并重新训练。这样可能可以得到比较快的速度,但是略差的视频效果。

DWCTOD commented 3 years ago

作者您好,拜读了您的论文和项目,但是基于提供的预训练模型,发现还是存在一定的问题,其中最为困扰的问题是 尝试输入中文音频会有严重音画不同步的情况,想问一下重新训练的话,是不是要对 Voice Conversion Module、Content Branch、Speaker-Aware Branch、Image-to-Image Translation 四个模块都要重新训练 (问题 1)。 因为看到项目中,后面三个都给了训练代码但是 Voice Conversion Module 并没给,好像写的是参考《AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss》,代码:https://github.com/auspicious3000/autovc (不知道第一步是不是用这个重新训练)(问题 2) 后面几个模块也找了 相关的 issue 查看别人遇到的问题,现在比较担心的问题是不知道如何对这些数据进行预处理,不知道老师可否提供一些参考的细节,例如 数据集文件的存放格式,以及应该要如何处理 (问题 3) image-to-image 训练:https://github.com/yzhou359/MakeItTalk/issues/27 speech content 训练的数据集处理问题:https://github.com/yzhou359/MakeItTalk/issues/19 视频fps 和音频处理:https://github.com/yzhou359/MakeItTalk/issues/16

冒昧打扰了,希望能得到老师的回复,非常感谢

DWCTOD commented 3 years ago

作者您好,我对你MakeItTalk很感兴趣,但是我被两个问题所困扰,第一个问题是我输入的中文音频和嘴型对不上,这个问题从何入手去定位?第二个问题是我输入一段24s的音频,生成的out.mp4所需要的时间在170-190s左右,时间有点太长了,这个性能能否优化到50%,请问如何优化呢?

大佬您好,不知道您是否解决了这个问题,我也遇到这个问题,不知道怎么办

yzhou359 commented 3 years ago

(1) 中文语音可以只训练前三个模块,image2image translation可以直接复用。 (2) 是的,使用的是autovc的代码,可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

DWCTOD commented 3 years ago

(1) 中文语音可以只训练前三个模块,image2image translation可以直接复用。 (2) 是的,使用的是autovc的代码,可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

谢谢大佬的回复,感谢

DWCTOD commented 3 years ago

(1) 中文语音可以只训练前三个模块,image2image translation可以直接复用。 (2) 是的,使用的是autovc的代码,可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

你好,我尝试将自己的中文数据集转成训练代码所需要的格式,这里存在一些疑问,关于人脸关键点的数据集构建问题,例如autovc_align_train_fl.pickle 是由什么内容组成的,从数据集的shape 可以获取一些信息,例如 9983204 可能是视频帧数关键点,还有 70 是编号 Obama0036.pm4 是文件名,但是后面的几个 array 不太懂是如何获取的,shape 分别是 204 、683、3993 12 尝试看 man_end2end.py 和 main_train_content.py相关的内容也没办法确定具体是如何得来的,不知道大佬可否给点提示或分享一下相关代码,非常感谢

Breeze-Zero commented 3 years ago

(1) 中文语音可以只训练前三个模块,image2image translation可以直接复用。 (2) 是的,使用的是autovc的代码,可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

你好,我尝试将自己的中文数据集转成训练代码所需要的格式,这里存在一些疑问,关于人脸关键点的数据集构建问题,例如autovc_align_train_fl.pickle 是由什么内容组成的,从数据集的shape 可以获取一些信息,例如 9983_204 可能是视频帧数_关键点,还有 70 是编号 Obama0036.pm4 是文件名,但是后面的几个 array 不太懂是如何获取的,shape 分别是 204 、683、3993 12 尝试看 man_end2end.py 和 main_train_content.py相关的内容也没办法确定具体是如何得来的,不知道大佬可否给点提示或分享一下相关代码,非常感谢

您好,我最近也在准备中文数据集,请问您是怎么处理数据的呢,或者是否有公开的数据集呢?希望能给些指点,非常感谢

chinasilva commented 2 years ago

(1) 中文语音可以只训练前三个模块,image2image translation可以直接复用。 (2) 是的,使用的是autovc的代码,可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

你好,我尝试将自己的中文数据集转成训练代码所需要的格式,这里存在一些疑问,关于人脸关键点的数据集构建问题,例如autovc_align_train_fl.pickle 是由什么内容组成的,从数据集的shape 可以获取一些信息,例如 9983_204 可能是视频帧数_关键点,还有 70 是编号 Obama0036.pm4 是文件名,但是后面的几个 array 不太懂是如何获取的,shape 分别是 204 、683、3993 12 尝试看 man_end2end.py 和 main_train_content.py相关的内容也没办法确定具体是如何得来的,不知道大佬可否给点提示或分享一下相关代码,非常感谢

您好,同样有此问题,对于新数据集转换。这两个文件autovc_retrain_mel_val_fl.pickle,autovc_retrain_mel_val_au.pickle,需要怎么得到。谢谢

sdulyq commented 2 years ago

(1) 中文语音可以只训练前三个模块,image2image translation可以直接复用。 (2) 是的,使用的是autovc的代码,可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

你好,我尝试将自己的中文数据集转成训练代码所需要的格式,这里存在一些疑问,关于人脸关键点的数据集构建问题,例如autovc_align_train_fl.pickle 是由什么内容组成的,从数据集的shape 可以获取一些信息,例如 9983_204 可能是视频帧数_关键点,还有 70 是编号 Obama0036.pm4 是文件名,但是后面的几个 array 不太懂是如何获取的,shape 分别是 204 、683、3993 12 尝试看 man_end2end.py 和 main_train_content.py相关的内容也没办法确定具体是如何得来的,不知道大佬可否给点提示或分享一下相关代码,非常感谢

你好不知道你最近解决这个问题了吗?