课程笔记 - Githubissues

BPE 压缩编码算法

word pieces encoder (WPE)

phones 音素	phonme
数量:40	100

辅音能量低喉咙孔变小

元音能量高喉咙孔变大

预加重是因为高频衰减厉害要补充会给他

加窗是因为要做DFT。

傅里叶变化

傅里叶反变化

离散傅里叶变化

离散傅里叶反变化

离散余弦变化

Fundamental frequency 等间距（说明等倍速）也叫pitch(多略米发)

相位能反应说话人的位置

p(X1,X2,X3,X4,X5,X6) = P(X1|X2)*P(X3|X2,X1) 要带上隐状态s…才能推出 HMM的公式

三音素和三状态不同

三音素类比 3-gram

三状态类比 nlp中的BOS

三音素聚类的特征 (先用简单的高斯模型训练mono单音素模型，音高斯的特征表示这些单音素然后聚类)然后再做三因素模型训练。

聚类的粒度也有好多种(词上音素上，状态上，高斯上(高斯分布接近的话，就删掉这个高斯))

聚类用的是自顶向上. 不断二分.

bringtree / question_embedding