Open liangcaihua opened 10 months ago
你講的應該是openVPI維護的版本,唱法模型主要是用來把word切割成phoneme,並且評估一個音符長度要如何分配給兩個音節,並自動加入表情控制參數(類似midi的cc),獲得了一份完整的json資料表(.ds)後,使用這個ds文件給acoustic render成wave檔案,渲染的方法基本上是照搬difussion model的演算法,本篇論文主要貢獻是引入了difussion model去提高mel頻譜圖的解析度,並且用另一個模型預測最佳的邊界值(k),而不是用一個固定常數,最後再用HiFiGAN去逆解Mel圖變回wav。希望以上的說明對你有所幫助
小白不明白。我也看过相关的文字和视频,但我还是不明白。谁能把这些基本的事情解释清楚吗?非常感谢! 如上,声学和唱法模型都要做吗?还是只做一个就行,最佳实践是什么呢?
原文中有这样一段话:
简单地说,歌唱模型的输出是具有可用于声学模型推理的歌唱参数的DS文件。
因此,在训练变奏曲歌唱模型之前,训练声学模型进行模型推理
更加困惑
我认为这是一个伟大的项目,非常感谢大家!