Fictionarry / ER-NeRF

[ICCV'23] Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis
https://fictionarry.github.io/ER-NeRF/
MIT License
894 stars 124 forks source link

我用中文处理的效果为什么很差,而且嘴唇还会抖动,好像嘴型也对不上 #45

Open ligyvip opened 9 months ago

ligyvip commented 9 months ago

https://github.com/Fictionarry/ER-NeRF/assets/49551733/5c3a0404-eb4a-440e-b725-86194fb9ee1d 我怀疑是音频提取的问题 我用的是HuBERT的hubert-large-ls960-ft 效果还是很不好 这有可能是因为什么原因造成的? 或者需要调整什么参数和原始数据吗?

ligyvip commented 9 months ago

嘴巴抖动是什么原因 是需要用--emb参数去训练吗?

Fictionarry commented 9 months ago

中文语音的feature本身不是很好,hubert也不能完全解决问题。训中文对训练视频的质量要求比较高,口型和声音都要比较清楚,且最好接近obama和其他demo的尺寸和人像占比,您这个差的有点大。TTS语音可能也有影响,可以先看valid的效果。参数大多数情况下不需要动

ligyvip commented 9 months ago

中文语音的feature本身不是很好,hubert也不能完全解决问题。训中文对训练视频的质量要求比较高,口型和声音都要比较清楚,且最好接近obama和其他demo的尺寸和人像占比,您这个差的有点大。TTS语音可能也有影响,可以先看valid的效果。参数大多数情况下不需要动

那估计大概率是视频本身的问题了

ligyvip commented 9 months ago

中文语音的feature本身不是很好,hubert也不能完全解决问题。训中文对训练视频的质量要求比较高,口型和声音都要比较清楚,且最好接近obama和其他demo的尺寸和人像占比,您这个差的有点大。TTS语音可能也有影响,可以先看valid的效果。参数大多数情况下不需要动

我想问下。。如果全身有什么好的解决方案吗?

baijiesong commented 9 months ago

Given groups=1, weight of size [32, 29, 3], expected input[8, 1024, 2] to have 29 channels, but got 1024 channels instead #28 请问用hubert提取音频时,特征维度一直对不上,想请教一下您如何处理好音频用于推理

lucasjinreal commented 7 months ago

@ligyvip 把视频crop出来,生成再贴回去

husthzy commented 7 months ago

@ligyvip 把视频crop出来,生成再贴回去

请问你有试过这种方案吗?生成的视频会存在一些轻微的抖动,并不能直接贴回去吧?有什么处理方法吗?

souyang11 commented 5 months ago

@ligyvip 把视频crop出来,生成再贴回去

请问你有试过这种方案吗?生成的视频会存在一些轻微的抖动,并不能直接贴回去吧?有什么处理方法吗?

请问有解决办法么,我试了直接crop会有不一致。

tailangjun commented 4 months ago

Given groups=1, weight of size [32, 29, 3], expected input[8, 1024, 2] to have 29 channels, but got 1024 channels instead #28 请问用hubert提取音频时,特征维度一直对不上,想请教一下您如何处理好音频用于推理

请问老铁解决了没