首页>课程更新>智联世界,无限可能,人工智能更新第二十二阶段

智联世界,无限可能,人工智能更新第二十二阶段

《人工智能》

本次更新内容为人工智能第二十二阶段:深度学习-语音识别【新增】

深度学习-语音识别【新增】

一、课程介绍

语音产业的上一次爆发出现在20世纪80年代到90年代:隐马尔科夫模型的应用,使大规模连续语音识别成为可能,这意味着用户在人机语音交互,得以摆脱字正腔圆、一词一顿的刻板方式。在过去的十年间,随着深度学习技术的强势崛起和以GPU代表的算力硬件爆发,语音类产品(语音转文字、说话人识别、语种识别等)使用体验得到了显著的提升。新一代Kaldi逐步取代了HTK和Sphinx的统治地位,成为了流行的开源语音工具箱,Kaldi工具箱的出现在很大程度上降低了语音识别技术的门槛,使得语音创业公司能在短时间内开发出一流的语音技术产品。


二、适合对象

1、具有自然语音处理基础

2、想将机器学习、深度学习应用与语音识别

3、有一定的编码基础


三、具体内容

1、语音识别系统架构:语音识别历史;概率模型;端到端语音识别;语音学

2、语音特征提取:语音信号处理;MFCC特征提取实践;Fbank特征提取实践

3、GMM与HMM声学模型:GMM实践;HMM实践;GMM整合HMM实践

4、DNN与HMM声学模型:Kaldi安装与概述;DNN整合HMM语音识别

5、语言模型:RNN语音模型

6、解码器:FSA;WFSA;FST;WFST;WFST实践

7、端到端语音识别:深度学习声学建模技术


四、可掌握的核心能力

1、掌握语音识别整体架构和关键技术

2、掌握Kaldi工具语音识别

3、掌握深度学习应用于语音识别

章节内容
章节1

语音识别特征提取

1:什么是语音识别_语音识别的历史阶段

2:声音信号的采样和量化

3:声音信号的预加重、分帧、加窗

4:每一帧信号的离散快速傅里叶变换

5:梅尔滤波分析

6:倒谱分析的动机

7:离散余弦变换

8:获得MFCC声学特征向量

9:CMS倒谱均值减_CMVN倒谱均值方差归一化

章节2

基于GMM-HMM的声学模型

10:统计语音识别

11:声学模型针对音素进行建模

12:针对三音素建模

13:声学字典Lexicon

14:声学模型HMM

15:HMM中的自跳和下跳_声学模型GMM-HMM

16:前向算法_后向算法_Trellis空间

17:维特比对齐

18:一个GMM-HMM参数如何计算_一个GMM-HMM模型参数直观理解

19:初始化GMM-HMM模型_具体GMM-HMM的单音素模型训练流程

20:基于决策树三音素状态绑定Senone

21:状态绑定决策树中的问题集_三音素GMM-HMM模型训练流程

22:说话人自适应训练的目的_SAT之MLLR(非必须步骤)

23:仅利用声学模型结合Viterbi识别的问题

章节3

基于N-Gram的语言模型

24:使用语言模型的好处_语言模型的本质

25:N-Gram语言模型

26:N-Gram语言模型的计算

27:3-Gram模型展示

28:回退平滑

29:Continuous-Language-Model

章节4

Viterbi动态解码与基于WFST的静态解码

30:解码是什么

31:基于Viterbi的原始动态解码

32:基于WFST的Viterbi静态解码

33:补充讲解_路径得分由声学得分和图得分俩部分组成

34:WFST的三大运算

35:HCLG分别转为对应的WFST

36:TokenPassing中的EmittingArc与NonEmittingArc

37:详解如何计算路径的cost和选择更优的路径

38:图解逐帧推进的TokenPassing具体流程

39:基于WFST的Lattice静态解码

40:on-the-fly Composition 和 Rescoring

章节5

传统语音识别结合深度学习

41:神经网络语言模型是什么

42:神经网络语言模型的轻量化

43:声学模型用DNN取代GMMs

44:注意DNN的输出与GMM计算的似然含义不同_DNN取代GMMs的优势

45:DNN-HMM的训练流程

46:DNN具体的形式也可以是CNN、RNN、FSMN

47:TDNN

48:TDNN-F_CNN+TDNN-F

章节7

端到端语音识别

49:什么是端到端语音识别

50:端到端语音识别之CTC

51:CTC使用前向算法的动机_前向算法的初始化

52:前向算法的迭代运算_连续字符比如apple在前向算法中的计算

53:CTC使用后向算法的动机_CTC的训练过程

54:CTC的解码_CTC模型词错误率

55:端到端语音识别之LAS

56:LAS的训练_更多关于Attention

57:LAS优缺点_可将CTC与Attention结合

58:端到端语音识别之RNN-T

59:RNN-T之JointNetwork联合优化

60:端到端语音识别之NerualTransducer、MoCha

61:端到端语音识别之Transformer、Conformer

另附本章节课程资料

百战程序员微信公众号

百战程序员微信小程序

©2014-2024 百战汇智(北京)科技有限公司 All Rights Reserved 北京亦庄经济开发区科创十四街 赛蒂国际工业园
网站维护:百战汇智(北京)科技有限公司
京公网安备 11011402011233号    京ICP备18060230号-3    营业执照    经营许可证:京B2-20212637