绪论、语音数字信号处理、隐马尔科夫模型、EM算法、高斯 混合模型、语言模型、循环神经网络、条件生成模型、注意力机制、语音识别技术、语音合成技术和语音技术研究前沿以及语音技术的实际应用等
秦勇老师
- 平时小作业50% + 期末大作业50%
- 平时小作业50分相当于白送,直接拿满
- 期末完成文献综述和论文复现,再适当尝试一些创新方法(不以结果进行评判,实现结果没有提升也是一种积极的尝试)
- 苯人只完成了中等难度的复现,略微尝试了2处创新但效果一般,最后给了97
- 学习python环境搭建,numpy、matplotlib的使用
- 提取Fbank特征并可视化,有能力的同学可以继续学习spectrogram、MFCC、PLP
- 学习并掌握Python、Numpy、Matplotlib
- 理解DTW算法原理,参考博客初识DTW算法
- 完成3个TODO:
- TODO1:学习并理解DTW算法,写入递推公式并补全代码;
- TODO2:导入wav文件,计算mfcc,用mfcc计算样例yes1和no2、yes3和yes1之间的dtw距离;
- TODO3:将yes1和yes3两个音频帧与帧之间的对应关系用图表的形式画出来。
代码参考连接 https://github.com/chenyang399/dtw
- 根据提供的语料库和参考代码,构建FFNN语言模型,提交运行结果截图。
- 使用tensorboard可视化模型在训练集和验证集上的loss曲线,以每个epoch为单位。
- 使用训练好的语言模型,计算以下两句话的困惑度:“Jane went to the store”和"store to Jane went the"
- 改进模型(可选)
- 拓展:
- 自行了解RNNLM、GPT、BERT等其他语言模型
- 雨课堂2道选择题
完成一次完整的科研实践(老师提供可选领域以及相应的github链接,从中选择)
-
Survey 文献综述 10%
-
Proposal 课题建议 10%
-
Implementation 课题实现代码(复现+创新) 20%
-
Presentation 成果讲解视频 10%