训练时发现一个很奇怪的问题

Fictionarry / ER-NeRF

[ICCV'23] Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis

https://fictionarry.github.io/ER-NeRF/

MIT License

1.02k stars 133 forks source link

训练时发现一个很奇怪的问题 #149

Open feipengheart opened 4 months ago

feipengheart commented 4 months ago

我用5分钟的训练视频训练发现lpip的损失比较高，并且最终的训练结果嘴巴不怎么动，我看了脸部的68个关键点们都是准确的，但就是找不到原因，结果我今天只训练前1分钟的视频，发现嘴巴好了，损失也下降的快，然后我就想是不是1-4分钟的原视频嘴巴有没有异常，结果并没有，为什么视频时长大了反而会影响效果，不太理解

feipengheart commented 4 months ago

这个视频的分辨率是430*410，人像比例也非常接近Obama，说话时嘴巴动作也比较明显

cacard commented 3 months ago

官方推荐512x512

qwert1887 commented 3 months ago

我也发现了，我用3分钟lpip【0.05】，6分钟lpip【0.1】，嘴巴都不会动。我试试减少时长。感谢提供思路

gg22mm commented 1 week ago

我也发现了，我用3分钟lpip【0.05】，6分钟lpip【0.1】，嘴巴都不会动。我试试减少时长。感谢提供思路

怎么样了，试得怎么样，小于3分钟是不是嘴巴就可以大动了，还是数据问题？

qwert1887 commented 1 week ago

我也发现了，我用3分钟lpip【0.05】，6分钟lpip【0.1】，嘴巴都不会动。我试试减少时长。感谢提供思路

怎么样了，试得怎么样，小于3分钟是不是嘴巴就可以大动了，还是数据问题？

我试了,没有明显改进,是数据问题,对数据要求很高,包括清晰度和音频清晰度

gg22mm commented 1 week ago

我也发现了，我用3分钟lpip【0.05】，6分钟lpip【0.1】，嘴巴都不会动。我试试减少时长。感谢提供思路

怎么样了，试得怎么样，小于3分钟是不是嘴巴就可以大动了，还是数据问题？

我试了,没有明显改进,是数据问题,对数据要求很高,包括清晰度和音频清晰度

那就麻烦了，对训练视频的要求，要跟 obama 那个demo才行： 1、清晰度 2、音频清晰度 3、尺寸

要跟 obama 那个demo才行, 有没有试过 TalkingGaussian ,效果是不是好一些

qwert1887 commented 1 week ago

我也发现了，我用3分钟lpip【0.05】，6分钟lpip【0.1】，嘴巴都不会动。我试试减少时长。感谢提供思路

怎么样了，试得怎么样，小于3分钟是不是嘴巴就可以大动了，还是数据问题？

我试了,没有明显改进,是数据问题,对数据要求很高,包括清晰度和音频清晰度

那就麻烦了，对训练视频的要求，要跟 obama 那个demo才行： 1、清晰度 2、音频清晰度 3、尺寸

要跟 obama 那个demo才行, 有没有试过 TalkingGaussian ,效果是不是好一些建议你试下SyncTalk这个. 1.试过单反效果最好.用自己手机拍摄最好用IPhone.Android也行,Android成功率没有IPhone的好,拍摄时光线要充足. 2.音频如果有杂音需要降噪. 3.尺寸最好裁切出来的人物占整个框的50%以上,太小了口型不太好. 4.音频编码器.用hubert和ave都试试,口型运动幅度大的ave好一些.有些张不开的用hubert效果不好,用ave有一定改善.

qwert1887 commented 1 week ago

TalkingGaussian

TalkingGaussian还没试过

gg22mm commented 1 week ago

多谢，我研究研究，这方面还得研究研究才行，技术不还得攻克一下