X-LANCE / UniCATS-CTX-txt2vec

[AAAI 2024] CTX-txt2vec, the acoustic model in UniCATS
https://cpdu.github.io/unicats
57 stars 8 forks source link

如何得到的Duration信息的? #8

Open gandolfxu opened 7 months ago

gandolfxu commented 7 months ago

SIL1和SIL2有什么区别?

cantabile-kwok commented 7 months ago

Duration信息是通过Kaldi的forced alignment得到的,这步操作我们很早就做了,一时找不到最初的代码,见谅见谅;但是可以肯定的是用Kaldi得到phone序列后,它会自动插入optional silence,也就是SIL记号。随后我们按照不同SIL对应duration的长度进一步对其划分,具体而言应该是这样:

SIL1:dur <= 3 SIL2:3 < dur <= 5 SIL3: 5 < dur <= 9 SIL4: 10 < dur <= 15 SIL5: 16< dur <= 25 SIL6: dur > 25

当然事实上不一定需要这么多级别的silence标记,我们这里是沿用了之前的结果。