Open bringtree opened 5 years ago
BPE 压缩编码算法
word pieces encoder (WPE)
辅音 能量低 喉咙孔变小
元音 能量高 喉咙孔变大
预加重 是因为高频衰减厉害 要补充会给他
加窗 是因为要做DFT。
傅里叶变化
傅里叶反变化
离散傅里叶变化
离散傅里叶反变化
离散余弦变化
Fundamental frequency 等间距(说明等倍速)也叫pitch(多略米发)
相位 能 反应说话人的位置
p(X1,X2,X3,X4,X5,X6) = P(X1|X2)*P(X3|X2,X1) 要 带上 隐状态s…才能推出 HMM的公式
三音素 和三状态不同
三音素 类比 3-gram
三状态 类比 nlp中的BOS
三音素聚类的特征 (先用简单的高斯模型 训练mono单音素模型,音高斯的特征表示这些单音素 然后聚类)然后再做三因素模型训练。
聚类的粒度 也有好多种(词上 音素上,状态上,高斯上(高斯分布接近的话,就删掉这个高斯))
聚类用的是自顶向上. 不断二分.
BPE 压缩编码算法
word pieces encoder (WPE)
辅音 能量低 喉咙孔变小
元音 能量高 喉咙孔变大
预加重 是因为高频衰减厉害 要补充会给他
加窗 是因为要做DFT。
傅里叶变化
傅里叶反变化
离散傅里叶变化
离散傅里叶反变化
离散余弦变化
Fundamental frequency 等间距(说明等倍速)也叫pitch(多略米发)
相位 能 反应说话人的位置
p(X1,X2,X3,X4,X5,X6) = P(X1|X2)*P(X3|X2,X1) 要 带上 隐状态s…才能推出 HMM的公式
三音素 和三状态不同
三音素 类比 3-gram
三状态 类比 nlp中的BOS
三音素聚类的特征 (先用简单的高斯模型 训练mono单音素模型,音高斯的特征表示这些单音素 然后聚类)然后再做三因素模型训练。
聚类的粒度 也有好多种(词上 音素上,状态上,高斯上(高斯分布接近的话,就删掉这个高斯))
聚类用的是自顶向上. 不断二分.