COSC0061 语音信息处理技术

2024春

课程内容

绪论、语音数字信号处理、隐马尔科夫模型、EM算法、高斯混合模型、语言模型、循环神经网络、条件生成模型、注意力机制、语音识别技术、语音合成技术和语音技术研究前沿以及语音技术的实际应用等

主讲教师

秦勇老师

评分标准

平时小作业50% + 期末大作业50%
- 平时小作业50分相当于白送，直接拿满
- 期末完成文献综述和论文复现，再适当尝试一些创新方法（不以结果进行评判，实现结果没有提升也是一种积极的尝试）
- 苯人只完成了中等难度的复现，略微尝试了2处创新但效果一般，最后给了97

作业任务情况

Lab1

学习python环境搭建，numpy、matplotlib的使用
提取Fbank特征并可视化，有能力的同学可以继续学习spectrogram、MFCC、PLP

Lab2

学习并掌握Python、Numpy、Matplotlib
理解DTW算法原理，参考博客初识DTW算法
完成3个TODO：
- TODO1：学习并理解DTW算法，写入递推公式并补全代码；
- TODO2：导入wav文件，计算mfcc，用mfcc计算样例yes1和no2、yes3和yes1之间的dtw距离；
- TODO3：将yes1和yes3两个音频帧与帧之间的对应关系用图表的形式画出来。

代码参考连接 https://github.com/chenyang399/dtw

Lab3

根据提供的语料库和参考代码，构建FFNN语言模型，提交运行结果截图。
使用tensorboard可视化模型在训练集和验证集上的loss曲线,以每个epoch为单位。
使用训练好的语言模型,计算以下两句话的困惑度:“Jane went to the store”和"store to Jane went the"
改进模型(可选)
拓展：
- 自行了解RNNLM、GPT、BERT等其他语言模型
雨课堂2道选择题

期末大作业（占50%）

完成一次完整的科研实践（老师提供可选领域以及相应的github链接，从中选择）

Survey 文献综述 10%
Proposal 课题建议 10%
Implementation 课题实现代码（复现+创新） 20%
Presentation 成果讲解视频 10%