NTT123 / light-speed

A modified VITS that utilizes phoneme duration's ground truth for better robustness
MIT License
112 stars 34 forks source link

44.1 Khz training config #7

Open kennytat opened 7 months ago

kennytat commented 7 months ago

Hi, This is the greatest TTS project for Vietnamese I have found so far. Thanks for your work.

I have successfully trained this model at 44.1Khz by modifying sampling_rate in config.json (and other factors are the same). However the quality of the inference speech is not good which compared to the 16k version. It includes a lot hissing sound (tiếng rè). Do I need to modify anything else to get the better quality at 44.1khz or anyway to upsample from 16khz to 44.1khz after inferencing?

Any help would be appreciated!!

TanMink commented 7 months ago

Xin chào, Đây là dự án TTS tuyệt vời nhất dành cho người Việt mà tôi tìm thấy cho đến nay. Cám ơn việc làm của bạn.

Tôi đã huấn luyện thành công mô hình này ở tần số 44,1Khz bằng cách sửa đổi samples_rate trong config.json (và các yếu tố khác đều giống nhau). Tuy nhiên chất lượng của lời nói suy luận không tốt so với phiên bản 16k. Nó bao gồm rất nhiều âm thanh rít (tiếng rè). Tôi có cần sửa đổi bất kỳ điều gì khác để có chất lượng tốt hơn ở 44,1khz hay không hoặc tăng mẫu từ 16khz lên 44,1khz sau khi suy luận?

Bất kỳ trợ giúp sẽ được đánh giá cao!!

Bạn có thể hướng dẫn tôi đào tạo và làm ra một model với nó không làm ơn