一、课程介绍
语音产业的上一次爆发出现在20世纪80年代到90年代:隐马尔科夫模型的应用,使大规模连续语音识别成为可能,这意味着用户在人机语音交互,得以摆脱字正腔圆、一词一顿的刻板方式。在过去的十年间,随着深度学习技术的强势崛起和以GPU代表的算力硬件爆发,语音类产品(语音转文字、说话人识别、语种识别等)使用体验得到了显著的提升。新一代Kaldi逐步取代了HTK和Sphinx的统治地位,成为了流行的开源语音工具箱,Kaldi工具箱的出现在很大程度上降低了语音识别技术的门槛,使得语音创业公司能在短时间内开发出一流的语音技术产品。
二、适合对象
1、具有自然语音处理基础
2、想将机器学习、深度学习应用与语音识别
3、有一定的编码基础
三、具体内容
1、语音识别系统架构:语音识别历史;概率模型;端到端语音识别;语音学
2、语音特征提取:语音信号处理;MFCC特征提取实践;Fbank特征提取实践
3、GMM与HMM声学模型:GMM实践;HMM实践;GMM整合HMM实践
4、DNN与HMM声学模型:Kaldi安装与概述;DNN整合HMM语音识别
5、语言模型:RNN语音模型
6、解码器:FSA;WFSA;FST;WFST;WFST实践
7、端到端语音识别:深度学习声学建模技术
四、可掌握的核心能力
1、掌握语音识别整体架构和关键技术
2、掌握Kaldi工具语音识别
3、掌握深度学习应用于语音识别
章节 | 内容 |
---|---|
章节1 语音识别特征提取 | 1:什么是语音识别_语音识别的历史阶段 2:声音信号的采样和量化 3:声音信号的预加重、分帧、加窗 4:每一帧信号的离散快速傅里叶变换 5:梅尔滤波分析 6:倒谱分析的动机 7:离散余弦变换 8:获得MFCC声学特征向量 9:CMS倒谱均值减_CMVN倒谱均值方差归一化 |
章节2 基于GMM-HMM的声学模型 | 10:统计语音识别 11:声学模型针对音素进行建模 12:针对三音素建模 13:声学字典Lexicon 14:声学模型HMM 15:HMM中的自跳和下跳_声学模型GMM-HMM 16:前向算法_后向算法_Trellis空间 17:维特比对齐 18:一个GMM-HMM参数如何计算_一个GMM-HMM模型参数直观理解 19:初始化GMM-HMM模型_具体GMM-HMM的单音素模型训练流程 20:基于决策树三音素状态绑定Senone 21:状态绑定决策树中的问题集_三音素GMM-HMM模型训练流程 22:说话人自适应训练的目的_SAT之MLLR(非必须步骤) 23:仅利用声学模型结合Viterbi识别的问题 |
章节3 基于N-Gram的语言模型 | 24:使用语言模型的好处_语言模型的本质 25:N-Gram语言模型 26:N-Gram语言模型的计算 27:3-Gram模型展示 28:回退平滑 29:Continuous-Language-Model |
章节4 Viterbi动态解码与基于WFST的静态解码 | 30:解码是什么 31:基于Viterbi的原始动态解码 32:基于WFST的Viterbi静态解码 33:补充讲解_路径得分由声学得分和图得分俩部分组成 34:WFST的三大运算 35:HCLG分别转为对应的WFST 36:TokenPassing中的EmittingArc与NonEmittingArc 37:详解如何计算路径的cost和选择更优的路径 38:图解逐帧推进的TokenPassing具体流程 39:基于WFST的Lattice静态解码 40:on-the-fly Composition 和 Rescoring |
章节5 传统语音识别结合深度学习 | 41:神经网络语言模型是什么 42:神经网络语言模型的轻量化 43:声学模型用DNN取代GMMs 44:注意DNN的输出与GMM计算的似然含义不同_DNN取代GMMs的优势 45:DNN-HMM的训练流程 46:DNN具体的形式也可以是CNN、RNN、FSMN 47:TDNN 48:TDNN-F_CNN+TDNN-F |
章节7 端到端语音识别 | 49:什么是端到端语音识别 50:端到端语音识别之CTC 51:CTC使用前向算法的动机_前向算法的初始化 52:前向算法的迭代运算_连续字符比如apple在前向算法中的计算 53:CTC使用后向算法的动机_CTC的训练过程 54:CTC的解码_CTC模型词错误率 55:端到端语音识别之LAS 56:LAS的训练_更多关于Attention 57:LAS优缺点_可将CTC与Attention结合 58:端到端语音识别之RNN-T 59:RNN-T之JointNetwork联合优化 60:端到端语音识别之NerualTransducer、MoCha 61:端到端语音识别之Transformer、Conformer |
另附本章节课程资料