Skip to content

Latest commit

 

History

History
9 lines (6 loc) · 399 Bytes

README.md

File metadata and controls

9 lines (6 loc) · 399 Bytes

TextProcess

文本处理: 基于特定学科领域的主题词库构建 (以宏观经济学为例)

中文分词中两个大难题是未登录词和歧义问题。 解决未登录词的问题,可以从扩充词库和分词算法中识别未登录词两方面入手

词库构建模型如下:

词库构建模型