bringtree / question_embedding

这个仓库的issues里记录了许多奇奇怪怪的东西(100+)。
1 stars 1 forks source link

课程笔记 #176

Open bringtree opened 5 years ago

bringtree commented 5 years ago

BPE 压缩编码算法

word pieces encoder (WPE)

decoder align force align
全局识别 训练语料
仅识别单词 发音的边界
global HCLG G=all text HCL o G'= train text + 规则 HCL o G'= train text
phones 音素 phonme
数量:40 100

辅音 能量低 喉咙孔变小

元音 能量高 喉咙孔变大

预加重 是因为高频衰减厉害 要补充会给他

加窗 是因为要做DFT。

傅里叶变化

傅里叶反变化

离散傅里叶变化

离散傅里叶反变化

离散余弦变化

Fundamental frequency 等间距(说明等倍速)也叫pitch(多略米发)

相位 能 反应说话人的位置

p(X1,X2,X3,X4,X5,X6) = P(X1|X2)*P(X3|X2,X1) 要 带上 隐状态s…才能推出 HMM的公式

三音素 和三状态不同

三音素 类比 3-gram

三状态 类比 nlp中的BOS

三音素聚类的特征 (先用简单的高斯模型 训练mono单音素模型,音高斯的特征表示这些单音素 然后聚类)然后再做三因素模型训练。

聚类的粒度 也有好多种(词上 音素上,状态上,高斯上(高斯分布接近的话,就删掉这个高斯))

聚类用的是自顶向上. 不断二分.