输入中文音频嘴型对不上以及性能如何优化

iamchenxin-coder commented 3 years ago

作者您好，我对你MakeItTalk很感兴趣，但是我被两个问题所困扰，第一个问题是我输入的中文音频和嘴型对不上，这个问题从何入手去定位？第二个问题是我输入一段24s的音频，生成的out.mp4所需要的时间在170-190s左右，时间有点太长了，这个性能能否优化到50%，请问如何优化呢？

yzhou359 commented 3 years ago

您好，1）你们可以尝试在中文集上重新训练模型。2)生成主要消耗的时间在image2image translation网络上，可以考虑用比较大的batch进行测试，以及考虑把网络结构缩小并重新训练。这样可能可以得到比较快的速度，但是略差的视频效果。

DWCTOD commented 3 years ago

作者您好，拜读了您的论文和项目，但是基于提供的预训练模型，发现还是存在一定的问题，其中最为困扰的问题是尝试输入中文音频会有严重音画不同步的情况，想问一下重新训练的话，是不是要对 Voice Conversion Module、Content Branch、Speaker-Aware Branch、Image-to-Image Translation 四个模块都要重新训练（问题 1）。因为看到项目中，后面三个都给了训练代码但是 Voice Conversion Module 并没给，好像写的是参考《AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss》，代码：https://github.com/auspicious3000/autovc （不知道第一步是不是用这个重新训练）（问题 2） 后面几个模块也找了相关的 issue 查看别人遇到的问题，现在比较担心的问题是不知道如何对这些数据进行预处理，不知道老师可否提供一些参考的细节，例如数据集文件的存放格式，以及应该要如何处理（问题 3） image-to-image 训练：https://github.com/yzhou359/MakeItTalk/issues/27 speech content 训练的数据集处理问题：https://github.com/yzhou359/MakeItTalk/issues/19 视频fps 和音频处理：https://github.com/yzhou359/MakeItTalk/issues/16

冒昧打扰了，希望能得到老师的回复，非常感谢

DWCTOD commented 3 years ago

作者您好，我对你MakeItTalk很感兴趣，但是我被两个问题所困扰，第一个问题是我输入的中文音频和嘴型对不上，这个问题从何入手去定位？第二个问题是我输入一段24s的音频，生成的out.mp4所需要的时间在170-190s左右，时间有点太长了，这个性能能否优化到50%，请问如何优化呢？

大佬您好，不知道您是否解决了这个问题，我也遇到这个问题，不知道怎么办

yzhou359 commented 3 years ago

(1) 中文语音可以只训练前三个模块，image2image translation可以直接复用。 (2) 是的，使用的是autovc的代码，可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

DWCTOD commented 3 years ago

(1) 中文语音可以只训练前三个模块，image2image translation可以直接复用。 (2) 是的，使用的是autovc的代码，可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

谢谢大佬的回复，感谢

DWCTOD commented 3 years ago

(1) 中文语音可以只训练前三个模块，image2image translation可以直接复用。 (2) 是的，使用的是autovc的代码，可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

你好，我尝试将自己的中文数据集转成训练代码所需要的格式，这里存在一些疑问，关于人脸关键点的数据集构建问题，例如autovc_align_train_fl.pickle 是由什么内容组成的，从数据集的shape 可以获取一些信息，例如 9983204 可能是视频帧数关键点，还有 70 是编号 Obama0036.pm4 是文件名，但是后面的几个 array 不太懂是如何获取的，shape 分别是 204 、683、3993 12 尝试看 man_end2end.py 和 main_train_content.py相关的内容也没办法确定具体是如何得来的，不知道大佬可否给点提示或分享一下相关代码，非常感谢

Breeze-Zero commented 3 years ago

(1) 中文语音可以只训练前三个模块，image2image translation可以直接复用。 (2) 是的，使用的是autovc的代码，可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

你好，我尝试将自己的中文数据集转成训练代码所需要的格式，这里存在一些疑问，关于人脸关键点的数据集构建问题，例如autovc_align_train_fl.pickle 是由什么内容组成的，从数据集的shape 可以获取一些信息，例如 9983_204 可能是视频帧数_关键点，还有 70 是编号 Obama0036.pm4 是文件名，但是后面的几个 array 不太懂是如何获取的，shape 分别是 204 、683、3993 12 尝试看 man_end2end.py 和 main_train_content.py相关的内容也没办法确定具体是如何得来的，不知道大佬可否给点提示或分享一下相关代码，非常感谢

您好，我最近也在准备中文数据集，请问您是怎么处理数据的呢，或者是否有公开的数据集呢？希望能给些指点，非常感谢

chinasilva commented 2 years ago

(1) 中文语音可以只训练前三个模块，image2image translation可以直接复用。 (2) 是的，使用的是autovc的代码，可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

你好，我尝试将自己的中文数据集转成训练代码所需要的格式，这里存在一些疑问，关于人脸关键点的数据集构建问题，例如autovc_align_train_fl.pickle 是由什么内容组成的，从数据集的shape 可以获取一些信息，例如 9983_204 可能是视频帧数_关键点，还有 70 是编号 Obama0036.pm4 是文件名，但是后面的几个 array 不太懂是如何获取的，shape 分别是 204 、683、3993 12 尝试看 man_end2end.py 和 main_train_content.py相关的内容也没办法确定具体是如何得来的，不知道大佬可否给点提示或分享一下相关代码，非常感谢

您好，同样有此问题，对于新数据集转换。这两个文件autovc_retrain_mel_val_fl.pickle，autovc_retrain_mel_val_au.pickle，需要怎么得到。谢谢

sdulyq commented 2 years ago

(1) 中文语音可以只训练前三个模块，image2image translation可以直接复用。 (2) 是的，使用的是autovc的代码，可以email给原作者询问training 代码。我们这里后期征得作者同意也会放出对应代码。 (3) 我在接下来几周会更新训练代码。

你好，我尝试将自己的中文数据集转成训练代码所需要的格式，这里存在一些疑问，关于人脸关键点的数据集构建问题，例如autovc_align_train_fl.pickle 是由什么内容组成的，从数据集的shape 可以获取一些信息，例如 9983_204 可能是视频帧数_关键点，还有 70 是编号 Obama0036.pm4 是文件名，但是后面的几个 array 不太懂是如何获取的，shape 分别是 204 、683、3993 12 尝试看 man_end2end.py 和 main_train_content.py相关的内容也没办法确定具体是如何得来的，不知道大佬可否给点提示或分享一下相关代码，非常感谢

你好不知道你最近解决这个问题了吗？

yzhou359 / MakeItTalk

输入中文音频嘴型对不上以及性能如何优化 #23