我用中文处理的效果为什么很差，而且嘴唇还会抖动，好像嘴型也对不上

Fictionarry / ER-NeRF

[ICCV'23] Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis

https://fictionarry.github.io/ER-NeRF/

MIT License

894 stars 124 forks source link

我用中文处理的效果为什么很差，而且嘴唇还会抖动，好像嘴型也对不上 #45

Open ligyvip opened 9 months ago

ligyvip commented 9 months ago

https://github.com/Fictionarry/ER-NeRF/assets/49551733/5c3a0404-eb4a-440e-b725-86194fb9ee1d 我怀疑是音频提取的问题我用的是HuBERT的hubert-large-ls960-ft 效果还是很不好这有可能是因为什么原因造成的？或者需要调整什么参数和原始数据吗？

ligyvip commented 9 months ago

嘴巴抖动是什么原因是需要用--emb参数去训练吗？

Fictionarry commented 9 months ago

中文语音的feature本身不是很好，hubert也不能完全解决问题。训中文对训练视频的质量要求比较高，口型和声音都要比较清楚，且最好接近obama和其他demo的尺寸和人像占比，您这个差的有点大。TTS语音可能也有影响，可以先看valid的效果。参数大多数情况下不需要动

ligyvip commented 9 months ago

中文语音的feature本身不是很好，hubert也不能完全解决问题。训中文对训练视频的质量要求比较高，口型和声音都要比较清楚，且最好接近obama和其他demo的尺寸和人像占比，您这个差的有点大。TTS语音可能也有影响，可以先看valid的效果。参数大多数情况下不需要动

那估计大概率是视频本身的问题了

ligyvip commented 9 months ago

中文语音的feature本身不是很好，hubert也不能完全解决问题。训中文对训练视频的质量要求比较高，口型和声音都要比较清楚，且最好接近obama和其他demo的尺寸和人像占比，您这个差的有点大。TTS语音可能也有影响，可以先看valid的效果。参数大多数情况下不需要动

我想问下。。如果全身有什么好的解决方案吗？

baijiesong commented 9 months ago

Given groups=1, weight of size [32, 29, 3], expected input[8, 1024, 2] to have 29 channels, but got 1024 channels instead #28 请问用hubert提取音频时，特征维度一直对不上，想请教一下您如何处理好音频用于推理

lucasjinreal commented 7 months ago

@ligyvip 把视频crop出来，生成再贴回去

husthzy commented 7 months ago

@ligyvip 把视频crop出来，生成再贴回去

请问你有试过这种方案吗？生成的视频会存在一些轻微的抖动，并不能直接贴回去吧？有什么处理方法吗？

souyang11 commented 5 months ago

@ligyvip 把视频crop出来，生成再贴回去

请问你有试过这种方案吗？生成的视频会存在一些轻微的抖动，并不能直接贴回去吧？有什么处理方法吗？

请问有解决办法么，我试了直接crop会有不一致。

tailangjun commented 4 months ago

Given groups=1, weight of size [32, 29, 3], expected input[8, 1024, 2] to have 29 channels, but got 1024 channels instead #28 请问用hubert提取音频时，特征维度一直对不上，想请教一下您如何处理好音频用于推理

请问老铁解决了没