Skip to content

MISTCARRYYOU/Latent-Dirichlet-Allocation-based-text-classification

Repository files navigation

Latent-Dirichlet-Allocation-based-text-classification

nlp作业3, 使用LDA主题模型进行金庸小说的文本分类。 1)给出了利用LDA模型做文本分类的基本流程,并利用余弦相似度比较结果向量的相似度。 2)探究了主题数K对LDA文本分类准确度的关系,发现主题数在50左右时整体LDA的效率和准确度最高; 3)探究了测试集片段长度对LDA文本分类准确度的关系,发现基本上分类效果与文本长度成正相关,但是会存在波动; 4)对比了小说中人名对于整体LDA文本分类效果的影响,发现LDA对于关键词语的缺失还是很敏感的; 5)研究了基于词语和基于字符两种情况下的LDA文本分类准确度,惊奇地发现基于字符的LDA分类模型可以取得更好的效果。 6)综合实验结论,给出了最优的利用LDA模型做文本分类的相关设置。

About

nlp作业3, 使用LDA主题模型进行金庸小说的文本分类。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages