Fictionarry / ER-NeRF

[ICCV'23] Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis
https://fictionarry.github.io/ER-NeRF/
MIT License
1.02k stars 133 forks source link

训练时发现一个很奇怪的问题 #149

Open feipengheart opened 4 months ago

feipengheart commented 4 months ago

我用5分钟的训练视频训练发现lpip的损失比较高,并且最终的训练结果嘴巴不怎么动,我看了脸部的68个关键点们都是准确的,但就是找不到原因,结果我今天只训练前1分钟的视频,发现嘴巴好了,损失也下降的快,然后我就想是不是1-4分钟的原视频嘴巴有没有异常,结果并没有,为什么视频时长大了反而会影响效果,不太理解

image
feipengheart commented 4 months ago

这个视频的分辨率是430*410,人像比例也非常接近Obama,说话时嘴巴动作也比较明显

image
cacard commented 3 months ago

官方推荐512x512

qwert1887 commented 3 months ago

我也发现了,我用3分钟lpip【0.05】,6分钟lpip【0.1】,嘴巴都不会动。我试试减少时长。感谢提供思路

gg22mm commented 1 week ago

我也发现了,我用3分钟lpip【0.05】,6分钟lpip【0.1】,嘴巴都不会动。我试试减少时长。感谢提供思路

怎么样了,试得怎么样,小于3分钟是不是嘴巴就可以大动了,还是数据问题?

qwert1887 commented 1 week ago

我也发现了,我用3分钟lpip【0.05】,6分钟lpip【0.1】,嘴巴都不会动。我试试减少时长。感谢提供思路

怎么样了,试得怎么样,小于3分钟是不是嘴巴就可以大动了,还是数据问题?

我试了,没有明显改进,是数据问题,对数据要求很高,包括清晰度和音频清晰度

gg22mm commented 1 week ago

我也发现了,我用3分钟lpip【0.05】,6分钟lpip【0.1】,嘴巴都不会动。我试试减少时长。感谢提供思路

怎么样了,试得怎么样,小于3分钟是不是嘴巴就可以大动了,还是数据问题?

我试了,没有明显改进,是数据问题,对数据要求很高,包括清晰度和音频清晰度

那就麻烦了,对训练视频的要求,要跟 obama 那个demo才行: 1、清晰度 2、音频清晰度 3、尺寸

要跟 obama 那个demo才行, 有没有试过 TalkingGaussian ,效果是不是好一些

qwert1887 commented 1 week ago

我也发现了,我用3分钟lpip【0.05】,6分钟lpip【0.1】,嘴巴都不会动。我试试减少时长。感谢提供思路

怎么样了,试得怎么样,小于3分钟是不是嘴巴就可以大动了,还是数据问题?

我试了,没有明显改进,是数据问题,对数据要求很高,包括清晰度和音频清晰度

那就麻烦了,对训练视频的要求,要跟 obama 那个demo才行: 1、清晰度 2、音频清晰度 3、尺寸

要跟 obama 那个demo才行, 有没有试过 TalkingGaussian ,效果是不是好一些 建议你试下SyncTalk这个. 1.试过单反效果最好.用自己手机拍摄最好用IPhone.Android也行,Android成功率没有IPhone的好,拍摄时光线要充足. 2.音频如果有杂音需要降噪. 3.尺寸最好裁切出来的人物占整个框的50%以上,太小了口型不太好. 4.音频编码器.用hubert和ave都试试,口型运动幅度大的ave好一些.有些张不开的用hubert效果不好,用ave有一定改善.

qwert1887 commented 1 week ago

TalkingGaussian

TalkingGaussian还没试过

gg22mm commented 1 week ago

多谢,我研究研究,这方面还得研究研究才行,技术不还得攻克一下