时间 | 事件 |
---|---|
2022.7.13 | 比赛启动,开放报名,赛事网址,初赛A榜数据集,初赛A榜提交入口 |
2022.8.12 | 报名截止,关闭初赛A榜评测入口 |
2022.8.13 | 开放初赛B榜数据集、评测入口 |
2022.8.17 | 关闭初赛B榜数据集、评测入口 |
2022.8.18 | 开放决赛数据集、评测入口 |
2022.8.20 | 关闭决赛数据集、评测入口 |
本次赛题选择网络文本作为输入,从中检测并纠正错误,实现中文文本校对系统。即给定一段文本,校对系统从中检测出错误字词、错误类型,并进行纠正,最终输出校正后的结果。
文本校对又称文本纠错,相关资料可参考自然语言处理方向的语法纠错(Grammatical Error Correction, GEC) 任务和**中文拼写纠错(Chinese spelling check, CSC)**和 一些开放资料
提供了GECToR作为baseline模型,可参考GECToR论文和GECToR源代码
├── command
│ └── train.sh # 训练脚本
├── data
├── logs
├── pretrained_model
└── src
├── __init__.py
├── baseline # baseline系统
├── corrector.py # 文本校对入口
├── evaluate.py # 指标评估
├── metric.py # 指标计算文件
├── prepare_for_upload.py # 生成要提交的结果文件
└── train.py # 训练入口
- 数据集获取:请于比赛官网报名获取数据集
- 提供了基础校对系统的baseline,其中baseline模型训练参数说明参考src/baseline/trainer.py
- baseline中的预训练模型支持使用bert类模型,可从HuggingFace下载bert类预训练模型,如: chinese-roberta-wwm-ext等
- baseline仅作参考,参赛队伍可对baseline进行二次开发,或采取其他解决方案。
cd command && sh train.sh
- CGED历年公开数据集:http://www.cged.tech/
- NLPCC2018语法纠错数据集:http://tcci.ccf.org.cn/conference/2018/taskdata.php
- SIGHAN及相关训练集:http://ir.itc.ntnu.edu.tw/lre/sighan8csc.html