44.1 Khz training config

NTT123 / light-speed

A modified VITS that utilizes phoneme duration's ground truth for better robustness

MIT License

112 stars 34 forks source link

Xin chào, Đây là dự án TTS tuyệt vời nhất dành cho người Việt mà tôi tìm thấy cho đến nay. Cám ơn việc làm của bạn.

Tôi đã huấn luyện thành công mô hình này ở tần số 44,1Khz bằng cách sửa đổi samples_rate trong config.json (và các yếu tố khác đều giống nhau). Tuy nhiên chất lượng của lời nói suy luận không tốt so với phiên bản 16k. Nó bao gồm rất nhiều âm thanh rít (tiếng rè). Tôi có cần sửa đổi bất kỳ điều gì khác để có chất lượng tốt hơn ở 44,1khz hay không hoặc tăng mẫu từ 16khz lên 44,1khz sau khi suy luận?

Bất kỳ trợ giúp sẽ được đánh giá cao!!

Bạn có thể hướng dẫn tôi đào tạo và làm ra một model với nó không làm ơn

NTT123 / light-speed

44.1 Khz training config #7