基于运营商文本数据的知识库检索比赛的baseline, 帮助大家学习理解。仅用于学习理解哦~不可商用。
环境: Python 3.10.12 使用方式:
- 新建自己的工程,然后将数据集解压到工作目录下
- 将demo.ipynb存放到工作目录下
- 更新以下变量
pdf_dir = '/content/drive/MyDrive/newwork/A/A_document' # 文档路径
question_file = '/content/drive/MyDrive/newwork/A/A_question.csv' # 问题路径
output_file = '/content/drive/MyDrive/newwork/output.csv' # 输出路径
- 运行所有单元。最终会在工作目录下产出一个output.csv。可以直接提交。
该baseline提交后的得分为:41.08500700000 (提交时排名第8)。欢迎大家一起学习交流。