iLovEing / notebook

MIT License
0 stars 0 forks source link

声纹识别基础 #23

Open iLovEing opened 1 year ago

iLovEing commented 1 year ago

声纹的概念来自于指纹,广义上讲,可以将一个\一类声音和其他声音区分开来的特征,都可以认为是声纹特征。这里主要记录声纹识别相关的技术发展和工程应用

摘录自《声纹技术:从核心算法到工程实践》

iLovEing commented 1 year ago

声纹技术的前世今生

screenshot-20230816-144619

  1. 早期声纹技术使用直观的向量化-匹配差异的思路,将音频转化为时频谱矩阵或梅尔倒谱系数,继而使用向量/矩阵求的距离的手段来对音频识别分类。
  2. 1995~2006年,在GMM出现后,GMM-HMM, GMM-UBM, GMM-SVM 等技术相继运用到声纹识别上,这个阶段是声纹识别的高斯混合模型时代。
  3. 2007-2011 联合因子分析(JFA)i-vector被提出,其充分考虑了信道的变化因素,将每个说话人的模型从高斯混合模型的多个分量中,映射到了更加低维的表征空间,从而克服了高斯分量互相独立的局限性。
  4. 14年以后,随着深度学习技术的爆发,LSTMattention等网络结构被越来越多地用到声音处理上。

下面对其中重要的概念和方法做简单的介绍

iLovEing commented 1 year ago

音频相关的基础概念

1. 声学基础


2. 数字信号-计算机如何存储?

将连续的模拟信号转换为离散的数字信号有两个步骤:采样和量化。再使用一定的编码规则转换成最后的音频文件。


3. 短时分析-音频信号特征分析基础

对一段音频做全局特征分析,比如将整段信号进行ft计算频谱,相当于对音频信号在时间轴上做了某种平滑处理,从而使时间分辨率降为零,这种做法会丢失信号中的大量局部信息。如果音频中有一些噪音片段,那么这些片段会对最后得到的特征造成进一步污染。 全局特征只有当信号十分平稳的时候才是有意义的,而日常的音频信号随时间变化而变化,因此,需要从局部提取特征,在每一个局部的短时间内,可以近似地认为信号是平稳的。这是音频信号特征分析的基础——短时分析技术


4. 声纹识别常用特征