什么叫声学模型？什么叫唱法模型？这两个模型是什么关系？

MoonInTheRiver / DiffSinger

DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (SVS & TTS); AAAI 2022; Official code

MIT License

4.3k stars 714 forks source link

什么叫声学模型？什么叫唱法模型？这两个模型是什么关系？ #103

Open liangcaihua opened 10 months ago

liangcaihua commented 10 months ago

小白不明白。我也看过相关的文字和视频，但我还是不明白。谁能把这些基本的事情解释清楚吗？非常感谢！如上，声学和唱法模型都要做吗？还是只做一个就行，最佳实践是什么呢？

原文中有这样一段话：

简单地说，歌唱模型的输出是具有可用于声学模型推理的歌唱参数的DS文件。

因此，在训练变奏曲歌唱模型之前，训练声学模型进行模型推理

更加困惑

我认为这是一个伟大的项目，非常感谢大家！

Hikari-Tsai commented 6 months ago

你講的應該是openVPI維護的版本，唱法模型主要是用來把word切割成phoneme，並且評估一個音符長度要如何分配給兩個音節，並自動加入表情控制參數(類似midi的cc），獲得了一份完整的json資料表(.ds)後，使用這個ds文件給acoustic render成wave檔案，渲染的方法基本上是照搬difussion model的演算法，本篇論文主要貢獻是引入了difussion model去提高mel頻譜圖的解析度，並且用另一個模型預測最佳的邊界值(k)，而不是用一個固定常數，最後再用HiFiGAN去逆解Mel圖變回wav。希望以上的說明對你有所幫助

MoonInTheRiver / DiffSinger

什么叫声学模型？ 什么叫唱法模型？这两个模型是什么关系？ #103

什么叫声学模型？什么叫唱法模型？这两个模型是什么关系？ #103