Skip to content

Latest commit

 

History

History
60 lines (37 loc) · 2.18 KB

COSC0061.md

File metadata and controls

60 lines (37 loc) · 2.18 KB

COSC0061 语音信息处理技术

2024春

课程内容

绪论、语音数字信号处理、隐马尔科夫模型、EM算法、高斯 混合模型、语言模型、循环神经网络、条件生成模型、注意力机制、语音识别技术、语音合成技术和语音技术研究前沿以及语音技术的实际应用等

主讲教师

秦勇老师

评分标准

  • 平时小作业50% + 期末大作业50%
    • 平时小作业50分相当于白送,直接拿满
    • 期末完成文献综述和论文复现,再适当尝试一些创新方法(不以结果进行评判,实现结果没有提升也是一种积极的尝试)
    • 苯人只完成了中等难度的复现,略微尝试了2处创新但效果一般,最后给了97

作业任务情况

Lab1

  1. 学习python环境搭建,numpy、matplotlib的使用
  2. 提取Fbank特征并可视化,有能力的同学可以继续学习spectrogram、MFCC、PLP

Lab2

  1. 学习并掌握Python、Numpy、Matplotlib
  2. 理解DTW算法原理,参考博客初识DTW算法
  3. 完成3个TODO:
    • TODO1:学习并理解DTW算法,写入递推公式并补全代码;
    • TODO2:导入wav文件,计算mfcc,用mfcc计算样例yes1和no2、yes3和yes1之间的dtw距离;
    • TODO3:将yes1和yes3两个音频帧与帧之间的对应关系用图表的形式画出来。

代码参考连接 https://github.com/chenyang399/dtw

Lab3

  1. 根据提供的语料库和参考代码,构建FFNN语言模型,提交运行结果截图。
  2. 使用tensorboard可视化模型在训练集和验证集上的loss曲线,以每个epoch为单位。
  3. 使用训练好的语言模型,计算以下两句话的困惑度:“Jane went to the store”和"store to Jane went the"
  4. 改进模型(可选)
  5. 拓展:
    • 自行了解RNNLM、GPT、BERT等其他语言模型
  6. 雨课堂2道选择题

期末大作业(占50%)

完成一次完整的科研实践(老师提供可选领域以及相应的github链接,从中选择)

  1. Survey 文献综述 10%

  2. Proposal 课题建议 10%

  3. Implementation 课题实现代码(复现+创新) 20%

  4. Presentation 成果讲解视频 10%