智联世界，无限可能，人工智能更新第二十二阶段

《人工智能》

本次更新内容为人工智能第二十二阶段：深度学习-语音识别【新增】

深度学习-语音识别【新增】

一、课程介绍

语音产业的上一次爆发出现在20世纪80年代到90年代：隐马尔科夫模型的应用，使大规模连续语音识别成为可能，这意味着用户在人机语音交互，得以摆脱字正腔圆、一词一顿的刻板方式。在过去的十年间，随着深度学习技术的强势崛起和以GPU代表的算力硬件爆发，语音类产品（语音转文字、说话人识别、语种识别等）使用体验得到了显著的提升。新一代Kaldi逐步取代了HTK和Sphinx的统治地位，成为了流行的开源语音工具箱，Kaldi工具箱的出现在很大程度上降低了语音识别技术的门槛，使得语音创业公司能在短时间内开发出一流的语音技术产品。

二、适合对象

１、具有自然语音处理基础

２、想将机器学习、深度学习应用与语音识别

３、有一定的编码基础

三、具体内容

１、语音识别系统架构：语音识别历史；概率模型；端到端语音识别；语音学

２、语音特征提取：语音信号处理；MFCC特征提取实践；Fbank特征提取实践

３、GMM与HMM声学模型：GMM实践；HMM实践；GMM整合HMM实践

４、DNN与HMM声学模型：Kaldi安装与概述；DNN整合HMM语音识别

５、语言模型：RNN语音模型

６、解码器：FSA；WFSA；FST；WFST；WFST实践

７、端到端语音识别：深度学习声学建模技术

四、可掌握的核心能力

１、掌握语音识别整体架构和关键技术

２、掌握Kaldi工具语音识别

３、掌握深度学习应用于语音识别

章节	内容
章节1 语音识别特征提取	1：什么是语音识别_语音识别的历史阶段 2：声音信号的采样和量化 3：声音信号的预加重、分帧、加窗 4：每一帧信号的离散快速傅里叶变换 5：梅尔滤波分析 6：倒谱分析的动机 7：离散余弦变换 8：获得MFCC声学特征向量 9：CMS倒谱均值减_CMVN倒谱均值方差归一化
章节2 基于GMM-HMM的声学模型	10：统计语音识别 11：声学模型针对音素进行建模 12：针对三音素建模 13：声学字典Lexicon 14：声学模型HMM 15：HMM中的自跳和下跳_声学模型GMM-HMM 16：前向算法_后向算法_Trellis空间 17：维特比对齐 18：一个GMM-HMM参数如何计算_一个GMM-HMM模型参数直观理解 19：初始化GMM-HMM模型_具体GMM-HMM的单音素模型训练流程 20：基于决策树三音素状态绑定Senone 21：状态绑定决策树中的问题集_三音素GMM-HMM模型训练流程 22：说话人自适应训练的目的_SAT之MLLR（非必须步骤） 23：仅利用声学模型结合Viterbi识别的问题
章节3 基于N-Gram的语言模型	24：使用语言模型的好处_语言模型的本质 25：N-Gram语言模型 26：N-Gram语言模型的计算 27：3-Gram模型展示 28：回退平滑 29：Continuous-Language-Model
章节4 Viterbi动态解码与基于WFST的静态解码	30：解码是什么 31：基于Viterbi的原始动态解码 32：基于WFST的Viterbi静态解码 33：补充讲解_路径得分由声学得分和图得分俩部分组成 34：WFST的三大运算 35：HCLG分别转为对应的WFST 36：TokenPassing中的EmittingArc与NonEmittingArc 37：详解如何计算路径的cost和选择更优的路径 38：图解逐帧推进的TokenPassing具体流程 39：基于WFST的Lattice静态解码 40：on-the-fly Composition 和 Rescoring
章节5 传统语音识别结合深度学习	41：神经网络语言模型是什么 42：神经网络语言模型的轻量化 43：声学模型用DNN取代GMMs 44：注意DNN的输出与GMM计算的似然含义不同_DNN取代GMMs的优势 45：DNN-HMM的训练流程 46：DNN具体的形式也可以是CNN、RNN、FSMN 47：TDNN 48：TDNN-F_CNN+TDNN-F
章节7 端到端语音识别	49：什么是端到端语音识别 50：端到端语音识别之CTC 51：CTC使用前向算法的动机_前向算法的初始化 52：前向算法的迭代运算_连续字符比如apple在前向算法中的计算 53：CTC使用后向算法的动机_CTC的训练过程 54：CTC的解码_CTC模型词错误率 55：端到端语音识别之LAS 56：LAS的训练_更多关于Attention 57：LAS优缺点_可将CTC与Attention结合 58：端到端语音识别之RNN-T 59：RNN-T之JointNetwork联合优化 60：端到端语音识别之NerualTransducer、MoCha 61：端到端语音识别之Transformer、Conformer

另附本章节课程资料

关于

课程分类

百战程序员微信公众号

百战程序员微信小程序

智联世界，无限可能，人工智能更新第二十二阶段

《人工智能》

本次更新内容为人工智能第二十二阶段：深度学习-语音识别【新增】

深度学习-语音识别【新增】

同学您好