nlp作业3, 使用LDA主题模型进行金庸小说的文本分类。 1)给出了利用LDA模型做文本分类的基本流程,并利用余弦相似度比较结果向量的相似度。 2)探究了主题数K对LDA文本分类准确度的关系,发现主题数在50左右时整体LDA的效率和准确度最高; 3)探究了测试集片段长度对LDA文本分类准确度的关系,发现基本上分类效果与文本长度成正相关,但是会存在波动; 4)对比了小说中人名对于整体LDA文本分类效果的影响,发现LDA对于关键词语的缺失还是很敏感的; 5)研究了基于词语和基于字符两种情况下的LDA文本分类准确度,惊奇地发现基于字符的LDA分类模型可以取得更好的效果。 6)综合实验结论,给出了最优的利用LDA模型做文本分类的相关设置。
-
Notifications
You must be signed in to change notification settings - Fork 0
MISTCARRYYOU/Latent-Dirichlet-Allocation-based-text-classification
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
nlp作业3, 使用LDA主题模型进行金庸小说的文本分类。
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published