ashawkey / RAD-NeRF

Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition
MIT License
878 stars 153 forks source link

支持中文语音模型 #26

Open boolw opened 1 year ago

boolw commented 1 year ago

我们使用的中文语音模型有高达3903个维度,能否修改代码让它支持中文语音呢?如果可以,请问该如何修改呢?

QinlongHuang commented 1 year ago

直接改asrmodel中相应的维度就可以了

boolw commented 1 year ago

我们试了好几种修改方法但是效果都不好,可以提供一下具体的修改方法吗?非常感谢

QinlongHuang commented 1 year ago

您说的效果不好是指模型run不起来还是训完结果不太好呢?我也是在hf上随便找了个model, jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn

boolw commented 1 year ago

我们也是使用的jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn这个模型,我们尝试改了self.audio_in_dim = 3503 和 self.audio_dim = 3503 两次地方,但是训练出来视频口型和语音不对应,效果不理想,可以提供一下具体修改的方案吗?

Gpwner commented 1 year ago

@boolw 请问这个有什么进展吗?

exceedzhang commented 1 year ago

使用的jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn,程序报错误了,错误如下:

image

中文使用新模型对口型矫正有帮助吗?

tom20180101 commented 11 months ago

直接改asrmodel中相应的维度就可以了

可以说下具体是修改那个位置吗? 我应该没有修改对地方,运行报错

RuojiWang commented 8 months ago

我们使用的中文语音模型有高达3903个维度,能否修改代码让它支持中文语音呢?如果可以,请问该如何修改呢?

请问有公开的中文语音数据集么?如果没有的话你们一般都是在哪里收集的呢,我是新手不太了解请多指教,感谢!