Open ligyvip opened 9 months ago
嘴巴抖动是什么原因 是需要用--emb参数去训练吗?
中文语音的feature本身不是很好,hubert也不能完全解决问题。训中文对训练视频的质量要求比较高,口型和声音都要比较清楚,且最好接近obama和其他demo的尺寸和人像占比,您这个差的有点大。TTS语音可能也有影响,可以先看valid的效果。参数大多数情况下不需要动
中文语音的feature本身不是很好,hubert也不能完全解决问题。训中文对训练视频的质量要求比较高,口型和声音都要比较清楚,且最好接近obama和其他demo的尺寸和人像占比,您这个差的有点大。TTS语音可能也有影响,可以先看valid的效果。参数大多数情况下不需要动
那估计大概率是视频本身的问题了
中文语音的feature本身不是很好,hubert也不能完全解决问题。训中文对训练视频的质量要求比较高,口型和声音都要比较清楚,且最好接近obama和其他demo的尺寸和人像占比,您这个差的有点大。TTS语音可能也有影响,可以先看valid的效果。参数大多数情况下不需要动
我想问下。。如果全身有什么好的解决方案吗?
Given groups=1, weight of size [32, 29, 3], expected input[8, 1024, 2] to have 29 channels, but got 1024 channels instead #28 请问用hubert提取音频时,特征维度一直对不上,想请教一下您如何处理好音频用于推理
@ligyvip 把视频crop出来,生成再贴回去
@ligyvip 把视频crop出来,生成再贴回去
请问你有试过这种方案吗?生成的视频会存在一些轻微的抖动,并不能直接贴回去吧?有什么处理方法吗?
@ligyvip 把视频crop出来,生成再贴回去
请问你有试过这种方案吗?生成的视频会存在一些轻微的抖动,并不能直接贴回去吧?有什么处理方法吗?
请问有解决办法么,我试了直接crop会有不一致。
Given groups=1, weight of size [32, 29, 3], expected input[8, 1024, 2] to have 29 channels, but got 1024 channels instead #28 请问用hubert提取音频时,特征维度一直对不上,想请教一下您如何处理好音频用于推理
请问老铁解决了没
https://github.com/Fictionarry/ER-NeRF/assets/49551733/5c3a0404-eb4a-440e-b725-86194fb9ee1d 我怀疑是音频提取的问题 我用的是HuBERT的hubert-large-ls960-ft 效果还是很不好 这有可能是因为什么原因造成的? 或者需要调整什么参数和原始数据吗?