add README.md

liuqiongqiong1 · liuqiongqiong1 · commit 374f756c15b5 · 2020-11-20T15:36:09.000Z
diff --git a/README.md b/README.md
@@ -6,7 +6,7 @@
 
 2020年初Covid-19疫情的爆发对各行各业产生了不可小觑的影响，也让以线下方式为主的传统教育在短期内受到了极大的冲击，更多人开始看到科技对教育市场的价值。在线教育成为了特殊时期教学的最佳选择，大规模地渗透至每一所学校、每一个家庭。在线教育的爆火使得教育行业产生了海量的在线教学语音识别（Automatic Speech Recognition，以下简称ASR）文本数据，极大地推动了教育领域技术的发展。
 
-数据作为产业最为核心和宝贵的资源之一，更是自然语言处理技术（Natural Language Processing，以下简称NLP）在各个领域得以应用和发展的基础。在线教育文本数据有着区别于通用场景数据的特有属性，给在线教育领域NLP的研究、应用和发展带来了极大的挑战，一是从音视频转录出来的文本数据中，存在着较多的ASR错误，这些错误可能会对文本处理相关任务的效果造成较大的影响；二是数据中含有大量的教育领域特有的专有词汇，现有的通用领域的开源词向量和开源预训练语言模型（如Google BERT Base[1]，Roberta[2]等）对于这些词汇的语义表示能力有限，进而会影响后续任务的效果。
+数据作为产业最为核心和宝贵的资源之一，更是自然语言处理技术（Natural Language Processing，以下简称NLP）在各个领域得以应用和发展的基础。在线教育文本数据有着区别于通用场景数据的特有属性，给在线教育领域NLP的研究、应用和发展带来了极大的挑战，一是从音视频转录出来的文本数据中，存在着较多的ASR错误，这些错误可能会对文本处理相关任务的效果造成较大的影响；二是数据中含有大量的教育领域特有的专有词汇，现有的通用领域的开源词向量和开源预训练语言模型（如Google BERT Base<sup>[1]</sup>，Roberta<sup>[2]</sup>等）对于这些词汇的语义表示能力有限，进而会影响后续任务的效果。
 
 为了帮助解决这两个问题，好未来AI中台机器学习团队从多个来源收集了超过2000万条（约包含3.8亿Tokens）的教育领域中文ASR文本数据，基于此建立了教育领域首个在线教学中文预训练模型TAL-EduBERT，并把其推至开源。
 
@@ -28,7 +28,7 @@ TAL-EduBERT所采用的预训练语料，主要源于好未来内部积淀的海
 
 ### 3. 预训练方式
  
-预训练框架图
+![Alt text](imgs/kjt.png?raw=true "")
 
 如上图所示，TAL-EduBERT采取了与BERT相同的两种预训练任务来进行预训练学习，分别是教育领域字级别任务（Masked Language Modeling，简称MLM）和句子级别的训练任务（Next Sentence Prediction，简称NSP），通过这两个任务，使得TAL-EduBERT能够捕获教育ASR文本数据中的字、词和句子级别的语法和语义信息。
 
@@ -39,17 +39,29 @@ TAL-EduBERT所采用的预训练语料，主要源于好未来内部积淀的海
 此任务来源于我们对老师的教学行为进行智能化的评估，具体我们评估了四项教师行为，分别是引导学生进行课后总结（Conclude）、带着学生记笔记（Note）、表扬学生（Praise）和提问学生（QA）。通过对教师教学行为进行分类，给老师打上行为标签，从而更方便地分析老师教学行为，进而辅助老师更好地教学，提升教学质量。
 
 ### 2. 实验结果：
-|  Task\Model   | Conclude  |
-|  ----  | ----  |
-| 单元格  | 单元格 |
-| 单元格  | 单元格 |
-Task\Model	Conclude	Note	Praise	QA
-Google BERT	Acc	0.7036	0.8436	0.8652	0.8948
-	F1	0.6404	0.8356	0.8683	0.8469
-Roberta	Acc	0.7097	0.8558	0.8689	0.8979
-	F1	0.6382	0.8464	0.8668	0.8433
-TAL-EduBERT	Acc	0.7270	0.8638	0.8731	0.9147
-	F1	0.6486	0.8549	0.8688	0.8721
+<table>
+    <tr>
+        <th colspan="2">Task\Model</th><th>Conclude</th><th>Note</th><th>Praise</th><th>QA</th>
+    </tr>
+    <tr>
+        <td rowspan="2">Google BERT</td><td>Acc</td><td>0.7036</td><td>0.8436</td><td>0.8652</td><td>0.8948</td>
+    </tr>
+    <tr>
+        <td>F1</td><td>0.6404</td><td>0.8356</td><td>0.8683</td><td>0.8469</td>
+    </tr>
+    <tr>
+        <td rowspan="2">Roberta</td><td>Acc</td><td>0.7097</td><td>0.8558</td><td>0.8689</td><td>0.8979</td>
+    </tr>
+    <tr>
+        <td>F1</td><td>0.6382</td><td>0.8464</td><td>0.8668</td><td>0.8433</td>
+    </tr>
+	<tr>
+        <td rowspan="2">TAL-EduBERT</td><td>Acc</td><td>0.7270</td><td>0.8638</td><td>0.8731</td><td>0.9147</td>
+    </tr>
+    <tr>
+        <td>F1</td><td>0.6486</td><td>0.8549</td><td>0.8688</td><td>0.8721</td>
+    </tr>
+</table>
 
 ## 四、 适用范围、使用方法及使用案例
 ### 1. 适用范围：