Skip to content

Commit 374f756

Browse files
author
liuqiongqiong1
committed
add README.md
1 parent 10bb9d9 commit 374f756

File tree

1 file changed

+25
-13
lines changed

1 file changed

+25
-13
lines changed

README.md

+25-13
Original file line numberDiff line numberDiff line change
@@ -6,7 +6,7 @@
66

77
2020年初Covid-19疫情的爆发对各行各业产生了不可小觑的影响,也让以线下方式为主的传统教育在短期内受到了极大的冲击,更多人开始看到科技对教育市场的价值。在线教育成为了特殊时期教学的最佳选择,大规模地渗透至每一所学校、每一个家庭。在线教育的爆火使得教育行业产生了海量的在线教学语音识别(Automatic Speech Recognition,以下简称ASR)文本数据,极大地推动了教育领域技术的发展。
88

9-
数据作为产业最为核心和宝贵的资源之一,更是自然语言处理技术(Natural Language Processing,以下简称NLP)在各个领域得以应用和发展的基础。在线教育文本数据有着区别于通用场景数据的特有属性,给在线教育领域NLP的研究、应用和发展带来了极大的挑战,一是从音视频转录出来的文本数据中,存在着较多的ASR错误,这些错误可能会对文本处理相关任务的效果造成较大的影响;二是数据中含有大量的教育领域特有的专有词汇,现有的通用领域的开源词向量和开源预训练语言模型(如Google BERT Base[1],Roberta[2]等)对于这些词汇的语义表示能力有限,进而会影响后续任务的效果。
9+
数据作为产业最为核心和宝贵的资源之一,更是自然语言处理技术(Natural Language Processing,以下简称NLP)在各个领域得以应用和发展的基础。在线教育文本数据有着区别于通用场景数据的特有属性,给在线教育领域NLP的研究、应用和发展带来了极大的挑战,一是从音视频转录出来的文本数据中,存在着较多的ASR错误,这些错误可能会对文本处理相关任务的效果造成较大的影响;二是数据中含有大量的教育领域特有的专有词汇,现有的通用领域的开源词向量和开源预训练语言模型(如Google BERT Base<sup>[1]</sup>,Roberta<sup>[2]</sup>等)对于这些词汇的语义表示能力有限,进而会影响后续任务的效果。
1010

1111
为了帮助解决这两个问题,好未来AI中台机器学习团队从多个来源收集了超过2000万条(约包含3.8亿Tokens)的教育领域中文ASR文本数据,基于此建立了教育领域首个在线教学中文预训练模型TAL-EduBERT,并把其推至开源。
1212

@@ -28,7 +28,7 @@ TAL-EduBERT所采用的预训练语料,主要源于好未来内部积淀的海
2828

2929
### 3. 预训练方式
3030

31-
预训练框架图
31+
![Alt text](imgs/kjt.png?raw=true "")
3232

3333
如上图所示,TAL-EduBERT采取了与BERT相同的两种预训练任务来进行预训练学习,分别是教育领域字级别任务(Masked Language Modeling,简称MLM)和句子级别的训练任务(Next Sentence Prediction,简称NSP),通过这两个任务,使得TAL-EduBERT能够捕获教育ASR文本数据中的字、词和句子级别的语法和语义信息。
3434

@@ -39,17 +39,29 @@ TAL-EduBERT所采用的预训练语料,主要源于好未来内部积淀的海
3939
此任务来源于我们对老师的教学行为进行智能化的评估,具体我们评估了四项教师行为,分别是引导学生进行课后总结(Conclude)、带着学生记笔记(Note)、表扬学生(Praise)和提问学生(QA)。通过对教师教学行为进行分类,给老师打上行为标签,从而更方便地分析老师教学行为,进而辅助老师更好地教学,提升教学质量。
4040

4141
### 2. 实验结果:
42-
| Task\Model | Conclude |
43-
| ---- | ---- |
44-
| 单元格 | 单元格 |
45-
| 单元格 | 单元格 |
46-
Task\Model Conclude Note Praise QA
47-
Google BERT Acc 0.7036 0.8436 0.8652 0.8948
48-
F1 0.6404 0.8356 0.8683 0.8469
49-
Roberta Acc 0.7097 0.8558 0.8689 0.8979
50-
F1 0.6382 0.8464 0.8668 0.8433
51-
TAL-EduBERT Acc 0.7270 0.8638 0.8731 0.9147
52-
F1 0.6486 0.8549 0.8688 0.8721
42+
<table>
43+
<tr>
44+
<th colspan="2">Task\Model</th><th>Conclude</th><th>Note</th><th>Praise</th><th>QA</th>
45+
</tr>
46+
<tr>
47+
<td rowspan="2">Google BERT</td><td>Acc</td><td>0.7036</td><td>0.8436</td><td>0.8652</td><td>0.8948</td>
48+
</tr>
49+
<tr>
50+
<td>F1</td><td>0.6404</td><td>0.8356</td><td>0.8683</td><td>0.8469</td>
51+
</tr>
52+
<tr>
53+
<td rowspan="2">Roberta</td><td>Acc</td><td>0.7097</td><td>0.8558</td><td>0.8689</td><td>0.8979</td>
54+
</tr>
55+
<tr>
56+
<td>F1</td><td>0.6382</td><td>0.8464</td><td>0.8668</td><td>0.8433</td>
57+
</tr>
58+
<tr>
59+
<td rowspan="2">TAL-EduBERT</td><td>Acc</td><td>0.7270</td><td>0.8638</td><td>0.8731</td><td>0.9147</td>
60+
</tr>
61+
<tr>
62+
<td>F1</td><td>0.6486</td><td>0.8549</td><td>0.8688</td><td>0.8721</td>
63+
</tr>
64+
</table>
5365

5466
## 四、 适用范围、使用方法及使用案例
5567
### 1. 适用范围:

0 commit comments

Comments
 (0)