Skip to content

Commit

Permalink
update COSC0061
Browse files Browse the repository at this point in the history
  • Loading branch information
aokimi0 committed Jan 18, 2025
1 parent 88cd0ce commit 829beb2
Showing 1 changed file with 57 additions and 2 deletions.
59 changes: 57 additions & 2 deletions courses/grade-3/COSC0061.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,60 @@
# COSC0061 语音信息处理技术

本课程页面暂无内容,期待大家的共同建设\~🔥
## 2024春

如果你愿意提供任何信息与观点,请在下方评论区留言,网站维护者会在第一时间看到,且会酌情将其添加为本课程页面的内容⚡️
## 课程内容

绪论、语音数字信号处理、隐马尔科夫模型、EM算法、高斯 混合模型、语言模型、循环神经网络、条件生成模型、注意力机制、语音识别技术、语音合成技术和语音技术研究前沿以及语音技术的实际应用等

## 主讲教师

秦勇老师

## 评分标准

- 平时小作业50% + 期末大作业50%
- 平时小作业50分相当于白送,直接拿满
- 期末完成文献综述和论文复现,再适当尝试一些创新方法(不以结果进行评判,实现结果没有提升也是一种积极的尝试)
- 苯人只完成了中等难度的复现,略微尝试了2处创新但效果一般,最后给了97

## 作业任务情况

### Lab1

1. 学习python环境搭建,numpy、matplotlib的使用
2. 提取Fbank特征并可视化,有能力的同学可以继续学习spectrogram、MFCC、PLP

### Lab2

1. 学习并掌握Python、Numpy、Matplotlib
2. 理解DTW算法原理,参考博客[初识DTW算法](https://blog.csdn.net/chenxy_bwave/article/details/121052541)
3. 完成3个TODO:
- TODO1:学习并理解DTW算法,写入递推公式并补全代码;
- TODO2:导入wav文件,计算mfcc,用mfcc计算样例yes1和no2、yes3和yes1之间的dtw距离;
- TODO3:将yes1和yes3两个音频帧与帧之间的对应关系用图表的形式画出来。

代码参考连接 https://github.com/chenyang399/dtw

### Lab3

1. 根据提供的语料库和参考代码,构建FFNN语言模型,提交运行结果截图。
2. 使用tensorboard可视化模型在训练集和验证集上的loss曲线,以每个epoch为单位。
3. 使用训练好的语言模型,计算以下两句话的困惑度:“Jane went to the store”和"store to Jane went the"
4. 改进模型(可选)
5. 拓展:
- 自行了解RNNLM、GPT、BERT等其他语言模型
6. 雨课堂2道选择题



### 期末大作业(占50%)

完成一次完整的科研实践(老师提供可选领域以及相应的github链接,从中选择)

1. Survey 文献综述 10%

2. Proposal 课题建议 10%

3. Implementation 课题实现代码(复现+创新) 20%

4. Presentation 成果讲解视频 10%

0 comments on commit 829beb2

Please sign in to comment.