Open SherlockSunset opened 3 months ago
看起来像是所用的数据里有时唇部范围太小了,可以参考这个解决方案 https://github.com/Fictionarry/ER-NeRF/commit/3dc34397579df2c383c766768934d3f21a68476f ,把唇部区域图像padding一下。其中rgb对应line 394的gt_image.....*2-1
, rgb_pred对应image_t.....*2-1
好的,我这边试试。
另外我这边在训练测试的时候,发现有下面一些问题:
做推理的时候一方面有脖子断裂的现象,另外一方面就是嘴部比较模糊,这两种现象一般是由于什么原因导致的呢?是数据质量不够好吗?如下面康辉这个例子:
有些数据的train_face.py训练的时候卡住,训练几乎暂停,如下面这个例子
另外我这边在训练测试的时候,发现有下面一些问题:
- 做推理的时候一方面有脖子断裂的现象,另外一方面就是嘴部比较模糊,这两种现象一般是由于什么原因导致的呢?是数据质量不够好吗?如下面康辉这个例子:
- 有些数据的train_face.py训练的时候卡住,训练几乎暂停,如下面这个例子
我们自己训中文或者英文的例子的时候没怎么见过模糊的情况,大概率是跟素材有关。脖子应该是预处理的时候parsing模型分割不准的问题,现在的预处理流程是把身体和背景(预处理后产生的torso文件夹和bc图像)分开存储,所以会导致重新组合的时候并不完全匹配,显现出parsing的分割错误,简单的解决方法是在对每帧进行预处理的时候把除头部以外的其余部分都存成一个图像当作逐帧的背景
这个是在采样眨眼的帧,卡住说明眨眼的帧太少了,把au_lb调低一点,例如在这一行把0.5调成1或者更大 https://github.com/Fictionarry/TalkingGaussian/blob/5acdaaa4508ccbeefc29673abc540430fe077c1e/train_face.py#L109
好的,多谢回复,我这边去改了测试一下。
好的,多谢回复,我这边去改了测试一下。
- 以我的理解的话,talkingGaussian这边预处理做了parsing之后,有用到的训练数据应该主要是脸和嘴部,所以身体部分在整个训练过程中应该是不起作用的是吗?
- 做推理的时候,talkingGaussian和ER-NERF这类基于nerf的方案一样,合成的人物头部还是有些抖动,这是因为本身方案的局限性如人的头部gaussian和声音特征有所耦合导致的吗,还是其他原因呢?
好的多谢,我这边在训练长头发的人物的时候,发现audio attention和emotion attention很容易拟合到头发上去,导致最后语音和嘴型完全对不上,这个是talkingGaussian本身存在的局限还是说我这边训练的有些问题呢?
好的多谢,我这边在训练长头发的人物的时候,发现audio attention和emotion attention很容易拟合到头发上去,导致最后语音和嘴型完全对不上,这个是talkingGaussian本身存在的局限还是说我这边训练的有些问题呢?
另外就是我发现训带眼镜的人物的时候,audio attention也容易拟合到眼镜上去,导致合成的视频眼镜一动一动的。
你好,感谢开源。我这边在训练custom data的时候,train_face到后期报错如下talkingGaussian/lib/python3.10/site-packages/torch/nn/functional.py", line 782, in _max_pool2d return torch.max_pool2d(input, kernel_size, stride, padding, dilation, ceil_mode) RuntimeError: Given input size: (192x2x2). Calculated output size: (192x0x0). Output size is too small。 能烦请帮忙看看原因吗?感谢感谢。