whisper長度切割問題

PlayVoice / whisper-vits-svc

Core Engine of Singing Voice Conversion & Singing Voice Clone

MIT License

2.63k stars 921 forks source link

Open Taiwan1912 opened 1 year ago

Taiwan1912 commented 1 year ago

有看到說明文檔whisper要少於30秒那麼想請問如果刻意把音頻都分割為30秒且batch_size開到最大做訓練那麼跟正常切割2~15秒做訓練會有好壞的差異嗎

我自己做實驗機器跑得起來每次epoch的步數降很低模型覺得之前好一點但可能是自我感覺良好

MaxMax2016 commented 1 year ago

那麼想請問如果刻意把音頻都分割為30秒那麼跟正常切割2~15秒做訓練

应该没什么区别，同样的数据、不同batch_size和learning_rate会影响结果