Open topnetfish opened 4 years ago
目的:本文就是利用新型的人工智能(深度学习)算法,结合清华大学开源语音数据集THCHS30进行语音识别的实战演练;让学员在了解语音识别基本的原理与实战的同时,更好的了解人工智能的相关内容与应用。 语音识别的基本原理。 语音识别的基本开发流程。 BiRNN双向循环神经网络的基本原理。 思路: 传统语音识别思路: 第一步,将语音数据转换成wav格式,wav文件里面存储的除了文件头以外,就是声音波形的点。 第二步,对声音波形数据进行VAD静音切除处理,以降低对后续步骤造成的干扰。 第三步,利用移动窗函数进行分帧处理。 第四步,对帧数据进行波形变换,比如提取MFCC声学特征,然后将帧数据变成多维向量。 第五步,将MFCC组合成状态,一般来说,若干帧对应一个状态。 第六步,状态组合成因素,一般来说,三个状态组合成一个因素。 第七步,因素组合成单词,一般来说,若干个因素组成一个单词。 第八步,单词组合成文本。 人工智能思路:区别于传统的语音识别方法,人工智能算法在最核心的特征提取,状态,因素转换等环节都做了优化,直接由神经网络算法来执行,不仅能提取更多优质丰富的特征,而且降低了人为因素在整个模型与方案当中的影响,产生更优质的效果。 当然,在数据预处理阶段,本案例虽然做了很多的优化工作,但由于是从0到1的搭建过程,所以该阶段还是会有大量的基础工作要做,由于难度相对较大,所以在HCIA-AI阶段只要求学习和掌握相应的开发流程和解决问题的思路,并不要求学员掌握整个的实现过程。 python_speech_features框架 audiofile_to_input_vector函数主要的功能就是从语音数据中提取MFCC特征,将其转化成MFCC特征码 get_audio_and_transcriptch函数主要用于将MFCC特征码转换成由时间序列(列)和频谱特征系数(行)组成的矩阵 get_ch_lable_v函数主要的功能是结合word_num_map参数将txt_label或者文本数据转换成向量。 将原始的密集语音数据矩阵转换成稀疏矩阵,为后面解码过程做准备 使用3层的全连接层,1层BiRNN层,再加2次全连接层组成,并且带有dropout层,使用的激活函数是ReLU,截断值为20。学习参数初始化使用标准差0.05的random_normal,keep_dropout_rate值为0.95。 实验流程: 1) 训练数据准备。 2) 导入相应模块。 3) 导入已定义函数。 4) 定义参数。 5) 数据预处理。 6) 变量定义。 7) 定义运算。 8) 定义损失函数与优化函数。 9) 训练准备与模型初始化。 10) 模型训练。 11) 训练完成。 利用TensorFlow完成语音识别系统,基于清华大学THCHS30数据集和BiRNN模型进行语音识别模型训练,最终评估语音识别的准确率
本实验为TensorFlow线性回归的一个实际案例即房价预测。 本实验通过一个预测房屋价格的实例来讲解利用线性回归预测房屋价格,以及在tensorflow中如何实现。平时常用的房价预测数据集为波士顿房价数据集,本实验采用的是北京的房价数据集,更贴近国人的生活。 该实验数据来源为:https://github.com/cunxi1992/boston_housing中的bj_housing2.csv文件。 TensorFlow提供了一个可视化工具TensorBoard。他可以将训练过程的各种回执数据展示出来,包括标量,图片,音频,计算图,数据分布,直方图和嵌入式向量。通过网页来观察模型的结构和训练过程中各个参数的变化。TensorBoard是日志展示系统,需要在session中运算图时,将各种类型的数据汇总并输出到日志文件中。然后启动TensorBoard服务,TensorBoard读取这些日志文件,并开启6060端口提供Web服务,让用户可以在浏览器中查看数据
图像识别 本实验是基于开源花类数据集flower_photos和一个11层的深度卷积神经网络(包括2个卷积层,2个池化层,2个全连接层)进行的花类型的分类实验,训练结束之后从训练数据当中从各类数据集中分别抽取一张进行模型验证。
目的:本文就是利用新型的人工智能(深度学习)算法,结合清华大学开源语音数据集THCHS30进行语音识别的实战演练;让学员在了解语音识别基本的原理与实战的同时,更好的了解人工智能的相关内容与应用。 语音识别的基本原理。 语音识别的基本开发流程。 BiRNN双向循环神经网络的基本原理。 思路: 传统语音识别思路: 第一步,将语音数据转换成wav格式,wav文件里面存储的除了文件头以外,就是声音波形的点。 第二步,对声音波形数据进行VAD静音切除处理,以降低对后续步骤造成的干扰。 第三步,利用移动窗函数进行分帧处理。 第四步,对帧数据进行波形变换,比如提取MFCC声学特征,然后将帧数据变成多维向量。 第五步,将MFCC组合成状态,一般来说,若干帧对应一个状态。 第六步,状态组合成因素,一般来说,三个状态组合成一个因素。 第七步,因素组合成单词,一般来说,若干个因素组成一个单词。 第八步,单词组合成文本。 人工智能思路:区别于传统的语音识别方法,人工智能算法在最核心的特征提取,状态,因素转换等环节都做了优化,直接由神经网络算法来执行,不仅能提取更多优质丰富的特征,而且降低了人为因素在整个模型与方案当中的影响,产生更优质的效果。 当然,在数据预处理阶段,本案例虽然做了很多的优化工作,但由于是从0到1的搭建过程,所以该阶段还是会有大量的基础工作要做,由于难度相对较大,所以在HCIA-AI阶段只要求学习和掌握相应的开发流程和解决问题的思路,并不要求学员掌握整个的实现过程。 python_speech_features框架 audiofile_to_input_vector函数主要的功能就是从语音数据中提取MFCC特征,将其转化成MFCC特征码 get_audio_and_transcriptch函数主要用于将MFCC特征码转换成由时间序列(列)和频谱特征系数(行)组成的矩阵 get_ch_lable_v函数主要的功能是结合word_num_map参数将txt_label或者文本数据转换成向量。 将原始的密集语音数据矩阵转换成稀疏矩阵,为后面解码过程做准备 使用3层的全连接层,1层BiRNN层,再加2次全连接层组成,并且带有dropout层,使用的激活函数是ReLU,截断值为20。学习参数初始化使用标准差0.05的random_normal,keep_dropout_rate值为0.95。 实验流程: 1) 训练数据准备。 2) 导入相应模块。 3) 导入已定义函数。 4) 定义参数。 5) 数据预处理。 6) 变量定义。 7) 定义运算。 8) 定义损失函数与优化函数。 9) 训练准备与模型初始化。 10) 模型训练。 11) 训练完成。 利用TensorFlow完成语音识别系统,基于清华大学THCHS30数据集和BiRNN模型进行语音识别模型训练,最终评估语音识别的准确率
本实验为TensorFlow线性回归的一个实际案例即房价预测。 本实验通过一个预测房屋价格的实例来讲解利用线性回归预测房屋价格,以及在tensorflow中如何实现。平时常用的房价预测数据集为波士顿房价数据集,本实验采用的是北京的房价数据集,更贴近国人的生活。 该实验数据来源为:https://github.com/cunxi1992/boston_housing中的bj_housing2.csv文件。 TensorFlow提供了一个可视化工具TensorBoard。他可以将训练过程的各种回执数据展示出来,包括标量,图片,音频,计算图,数据分布,直方图和嵌入式向量。通过网页来观察模型的结构和训练过程中各个参数的变化。TensorBoard是日志展示系统,需要在session中运算图时,将各种类型的数据汇总并输出到日志文件中。然后启动TensorBoard服务,TensorBoard读取这些日志文件,并开启6060端口提供Web服务,让用户可以在浏览器中查看数据
图像识别 本实验是基于开源花类数据集flower_photos和一个11层的深度卷积神经网络(包括2个卷积层,2个池化层,2个全连接层)进行的花类型的分类实验,训练结束之后从训练数据当中从各类数据集中分别抽取一张进行模型验证。