支持中文语音模型

ashawkey / RAD-NeRF

Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition

MIT License

878 stars 153 forks source link

支持中文语音模型 #26

Open boolw opened 1 year ago

boolw commented 1 year ago

我们使用的中文语音模型有高达3903个维度，能否修改代码让它支持中文语音呢？如果可以，请问该如何修改呢？

QinlongHuang commented 1 year ago

直接改asrmodel中相应的维度就可以了

boolw commented 1 year ago

我们试了好几种修改方法但是效果都不好，可以提供一下具体的修改方法吗？非常感谢

QinlongHuang commented 1 year ago

您说的效果不好是指模型run不起来还是训完结果不太好呢？我也是在hf上随便找了个model, jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn

boolw commented 1 year ago

我们也是使用的jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn这个模型，我们尝试改了self.audio_in_dim = 3503 和 self.audio_dim = 3503 两次地方，但是训练出来视频口型和语音不对应，效果不理想，可以提供一下具体修改的方案吗？

Gpwner commented 1 year ago

@boolw 请问这个有什么进展吗？

exceedzhang commented 1 year ago

使用的jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn，程序报错误了，错误如下：

中文使用新模型对口型矫正有帮助吗？

tom20180101 commented 11 months ago

直接改asrmodel中相应的维度就可以了

可以说下具体是修改那个位置吗？我应该没有修改对地方，运行报错

RuojiWang commented 8 months ago

我们使用的中文语音模型有高达3903个维度，能否修改代码让它支持中文语音呢？如果可以，请问该如何修改呢？

请问有公开的中文语音数据集么？如果没有的话你们一般都是在哪里收集的呢，我是新手不太了解请多指教，感谢！