MoonInTheRiver / DiffSinger

DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (SVS & TTS); AAAI 2022; Official code
MIT License
4.3k stars 714 forks source link

什么叫声学模型? 什么叫唱法模型?这两个模型是什么关系? #103

Open liangcaihua opened 10 months ago

liangcaihua commented 10 months ago

小白不明白。我也看过相关的文字和视频,但我还是不明白。谁能把这些基本的事情解释清楚吗?非常感谢! 如上,声学和唱法模型都要做吗?还是只做一个就行,最佳实践是什么呢?

原文中有这样一段话:

简单地说,歌唱模型的输出是具有可用于声学模型推理的歌唱参数的DS文件。

因此,在训练变奏曲歌唱模型之前,训练声学模型进行模型推理

更加困惑

我认为这是一个伟大的项目,非常感谢大家!

Hikari-Tsai commented 6 months ago

你講的應該是openVPI維護的版本,唱法模型主要是用來把word切割成phoneme,並且評估一個音符長度要如何分配給兩個音節,並自動加入表情控制參數(類似midi的cc),獲得了一份完整的json資料表(.ds)後,使用這個ds文件給acoustic render成wave檔案,渲染的方法基本上是照搬difussion model的演算法,本篇論文主要貢獻是引入了difussion model去提高mel頻譜圖的解析度,並且用另一個模型預測最佳的邊界值(k),而不是用一個固定常數,最後再用HiFiGAN去逆解Mel圖變回wav。希望以上的說明對你有所幫助