Skip to content

Latest commit

 

History

History
153 lines (91 loc) · 7.8 KB

datasets-natural-language-processing.md

File metadata and controls

153 lines (91 loc) · 7.8 KB

自然语言处理的数据集

原文: https://machinelearningmastery.com/datasets-natural-language-processing/

在开始深入学习自然语言处理任务时,您需要数据集来练习。

最好使用可以快速下载的小型数据集,并且不需要太长时间来适应模型。此外,使用易于理解和广泛使用的标准数据集也很有帮助,这样您就可以比较结果,看看您是否在取得进展。

在这篇文章中,您将发现一套用于自然语言处理任务的标准数据集,您可以在深入学习入门时使用这些数据集。

概观

这篇文章分为 7 个部分;他们是:

  1. 文本分类
  2. 语言建模
  3. 图像标题
  4. 机器翻译
  5. 问题回答
  6. 语音识别
  7. 文件摘要

我试图提供一种混合的数据集,这些数据集很受欢迎,适用于规模适中的学术论文。

几乎所有数据集都可以免费下载。

如果您没有列出您最喜欢的数据集,或者您认为您知道应该列出的更好的数据集,请在下面的评论中告诉我。

让我们开始吧。

Datasets for Natural Language Processing

自然语言处理数据集 照格兰特,保留一些权利。

1.文本分类

文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。

下面是一些很好的初学者文本分类数据集。

有关更多信息,请参阅帖子:

2.语言建模

语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。

它是语音识别和机器翻译等任务中的前置任务。

下面是一些很好的初学者语言建模数据集。

  • Project Gutenberg ,这是一系列免费书籍,可以用纯文本检索各种语言。

还有更多正式的语料库得到了很好的研究;例如:

3.图像标题

图像字幕是为给定图像生成文本描述的任务。

下面是一些很好的初学者图像字幕数据集。

欲了解更多,请看帖子:

4.机器翻译

机器翻译是将文本从一种语言翻译成另一种语言的任务。

下面是一些很好的初学者机器翻译数据集。

有大量标准数据集用于年度机器翻译挑战;看到:

5.问题回答

问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。

下面是一些很好的初学者问题回答数据集。

有关更多信息,请参阅帖子:

6.语音识别

语音识别是将口语的音频转换为人类可读文本的任务。

下面是一些很好的初学者语音识别数据集。

你知道一些更好的自动语音识别数据集吗? 请在评论中告诉我。

7.文件摘要

文档摘要是创建较大文档的简短有意义描述的任务。

下面是一些很好的初学者文档摘要数据集。

欲了解更多信息:

进一步阅读

如果您希望更深入,本节提供了其他数据集列表。

你知道其他任何自然语言处理数据集的好名单吗? 请在下面的评论中告诉我。

摘要

在这篇文章中,您发现了一套标准数据集,您可以在深入学习入门时用于自然语言处理任务。

你选择了一个数据集吗?您使用上述数据集之一吗? 请在下面的评论中告诉我。