APC model - Githubissues

lovekittynine commented 2 years ago

你好，请问您提供的apc模型的权重是在中文语料上预训练的嘛？

YuanxunLu commented 2 years ago

是的

lovekittynine commented 2 years ago

hello，请问在训练audio2mouth的时候，嘴部关键点需要做特殊的对齐操作吗？比如makeitTalk中的事先配准，或者其他方法中的facealignment? 训练audio2mouth的时候，特征影响会有多大，直接使用mfcc训练mouth关键点是否可行？还有一点就是如果不做论文中的LLE，对于这一块的训练会有多大影响？

YuanxunLu commented 2 years ago

我的关键点是在归一化的三维人脸空间做的（类似makeittalk的配准）
audio特征影响还是很大的，mfcc泛化性个人觉得会差一些；
LLE在训练中没有参与，只是后处理；

lovekittynine commented 2 years ago

你好，有尝试过在中文数据集上训练吗？我自己尝试在中文数据集上训练，但是效果不好，尝试过训练makeittalk中的speech content分支，也就是audio2landmark部分，发现嘴部学的并不好，几乎不动的样子。特征提取部分用的是论文中描述的autovc，现在不清楚这个方法对于跨域后特征提取有多大影响，(english->chinese)，所以打算直接尝试mfcc特征去train。我发现audio2landmark这一步很关键，同时也比较难做，归一化非常重要，但是makeittalk数据预处理代码并没有。用作者提供好的数据，训练是其作用的，但是自己构造的一批数据效果很差。想请问一下，是否之前有尝试过 retrain makeitTalk？另外，对于这个方向刚入门，很多问题是一知半解，现在想结合makeittalk跑个中文的demo，卡在audio2landmarks这一块，有什么经验可以提供吗？或者说这个过程中需要特别注意的细节？另外，是否了解有合适的中文数据集呢？谢谢🙏！

YuanxunLu commented 2 years ago

不好意思，没有做过相关测试，也没有训过makeittalk。landmark的归一化肯定是重要的，学习的对象需要在同一空间内。中文数据集可以去看看common voice，aishell这些。

lovekittynine commented 2 years ago

非常感谢，这些数据集好像只有音频，但是没有视频。有包含视频的相关数据集吗？

YuanxunLu commented 2 years ago

不好意思，这方面没有了解过。

lovekittynine commented 2 years ago

作者你好，看了一下细节部分，论文提到视频抽帧是60fps, 音频计算mfcc特征的时候帧长是1/60，但是帧移是1/120，这样子mfcc序列长度会是视频帧数序列的2倍，在训练audio2mouth时候，帧数怎么对齐呢？

YuanxunLu commented 2 years ago

我没有用mfcc，用的是mel谱作为浅层feature，送入APC得到深度feature。两比一的长度很简单，用两个feature生成一帧就可以了。

lovekittynine commented 2 years ago

ok，所以实际上是mfcc特征输入到apc模型，最后得到的预测帧数和视频序列长度保持了一致。这么设计提取mfcc特征，是考虑到了apc模型的特性嘛？

YuanxunLu commented 2 years ago

没有mfcc，APC是深度语音特征的一种，他用的梅尔谱作为浅层特征。当然，你也可以用从raw wave得到的深度特征，比如wav2vec

lovekittynine commented 2 years ago

你好，在训练audio2mouth过程中发现嘴部关键点在某一帧可能会突变是为什么？

Comedian1926 commented 2 years ago

你好，在训练audio2mouth过程中发现嘴部关键点在某一帧可能会突变是为什么？

这个问题是LSP还是Makeittalk中产生的？如果排除了音频噪声，可以看看超参数。我在Makeittalk中训练遇到类似的问题，通过调整超参解决了

tujie-jiangye commented 1 year ago

我的关键点是在归一化的三维人脸空间做的（类似makeittalk的配准）

audio特征影响还是很大的，mfcc泛化性个人觉得会差一些；

LLE在训练中没有参与，只是后处理；

你好，请问APC_feat_database是怎样生成的，比如我有一段5分钟的说话视频，是5分钟数据全部用于生成，还是按照一定的规律挑选一段？

YuanxunLu / LiveSpeechPortraits

APC model #32