YuanxunLu / LiveSpeechPortraits

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation (SIGGRAPH Asia 2021)
MIT License
1.16k stars 200 forks source link

APC model #32

Closed lovekittynine closed 2 years ago

lovekittynine commented 2 years ago

你好,请问您提供的apc模型的权重是在中文语料上预训练的嘛?

YuanxunLu commented 2 years ago

是的

lovekittynine commented 2 years ago

hello, 请问在训练audio2mouth的时候,嘴部关键点需要做特殊的对齐操作吗?比如makeitTalk中的事先配准,或者其他方法中的facealignment? 训练audio2mouth的时候,特征影响会有多大,直接使用mfcc训练mouth关键点是否可行?还有一点就是如果不做论文中的LLE,对于这一块的训练会有多大影响?

YuanxunLu commented 2 years ago
  1. 我的关键点是在归一化的三维人脸空间做的(类似makeittalk的配准)
  2. audio特征影响还是很大的,mfcc泛化性个人觉得会差一些;
  3. LLE在训练中没有参与,只是后处理;
lovekittynine commented 2 years ago

你好,有尝试过在中文数据集上训练吗?我自己尝试在中文数据集上训练,但是效果不好,尝试过训练makeittalk中的speech content分支,也就是audio2landmark部分,发现嘴部学的并不好,几乎不动的样子。特征提取部分用的是论文中描述的autovc,现在不清楚这个方法对于跨域后特征提取有多大影响,(english->chinese),所以打算直接尝试mfcc特征去train。我发现audio2landmark这一步很关键,同时也比较难做,归一化非常重要,但是makeittalk数据预处理代码并没有。用作者提供好的数据,训练是其作用的,但是自己构造的一批数据效果很差。想请问一下,是否之前有尝试过 retrain makeitTalk?另外,对于这个方向刚入门,很多问题是一知半解,现在想结合makeittalk跑个中文的demo,卡在audio2landmarks这一块,有什么经验可以提供吗?或者说这个过程中需要特别注意的细节?另外,是否了解有合适的中文数据集呢? 谢谢🙏!

YuanxunLu commented 2 years ago

不好意思,没有做过相关测试,也没有训过makeittalk。landmark的归一化肯定是重要的,学习的对象需要在同一空间内。 中文数据集可以去看看common voice,aishell这些。

lovekittynine commented 2 years ago

非常感谢,这些数据集好像只有音频,但是没有视频。有包含视频的相关数据集吗?

YuanxunLu commented 2 years ago

不好意思,这方面没有了解过。

lovekittynine commented 2 years ago

作者你好,看了一下细节部分,论文提到视频抽帧是60fps, 音频计算mfcc特征的时候帧长是1/60, 但是帧移是1/120,这样子mfcc序列长度会是视频帧数序列的2倍,在训练audio2mouth时候,帧数怎么对齐呢?

YuanxunLu commented 2 years ago

我没有用mfcc,用的是mel谱作为浅层feature,送入APC得到深度feature。 两比一的长度很简单,用两个feature生成一帧就可以了。

lovekittynine commented 2 years ago

ok, 所以实际上是mfcc特征输入到apc模型,最后得到的预测帧数和视频序列长度保持了一致。这么设计提取mfcc特征,是考虑到了apc模型的特性嘛?

YuanxunLu commented 2 years ago

没有mfcc,APC是深度语音特征的一种,他用的梅尔谱作为浅层特征。当然,你也可以用从raw wave得到的深度特征,比如wav2vec

lovekittynine commented 2 years ago

你好,在训练audio2mouth过程中发现嘴部关键点在某一帧可能会突变是为什么?

Comedian1926 commented 2 years ago

你好,在训练audio2mouth过程中发现嘴部关键点在某一帧可能会突变是为什么?

这个问题是LSP还是Makeittalk中产生的?如果排除了音频噪声,可以看看超参数。我在Makeittalk中训练遇到类似的问题,通过调整超参解决了

tujie-jiangye commented 1 year ago
  1. 我的关键点是在归一化的三维人脸空间做的(类似makeittalk的配准)
  2. audio特征影响还是很大的,mfcc泛化性个人觉得会差一些;
  3. LLE在训练中没有参与,只是后处理;

你好,请问APC_feat_database是怎样生成的,比如我有一段5分钟的说话视频,是5分钟数据全部用于生成,还是按照一定的规律挑选一段?