Skip to content

v1.3.5新特性、优化与维护

Compare
Choose a tag to compare
@hankcs hankcs released this 22 Oct 05:55
· 1067 commits to master since this release
  1. 大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment @TylunasLi
  2. 自定义词典支持热更新:#563 ,ngram模型支持热加载:#580
  3. 新增一个提高用户词典优先级的开关:#633
  4. 支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt"
  5. 开放TextRank关键词提取中的最大迭代次数参数:#577
  6. 为Term添加equal方法 @AnyListen
  7. TextRankKeyword 提取窗口相近词的强化 @tiandiweizun
  8. 文本摘要方法支持自定义句子分隔符 @wangdong
  9. 提高AC自动机健壮性,添加hasKeyword接口 @fnaith
  10. 修复BinTrie.remove不存在的key时导致的问题:#540
  11. 解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题:#542
  12. CharTable.txt 添加上下标字符的对应关系 @AnyListen
  13. 将“\t”等不可打印的字符视作分隔符:#584
  14. 中文数词与阿拉伯数词切分开 @jian.li
  15. 修正全角年份识别中字符串长度错误,修正数字识别工具的错误,增加测试代码。支持读取包含BOM的文本文件。 @TylunasLi
  16. 校对CoreNatureDictionary.txt,删除以分号开头的错误词语:#221 (comment)
  17. 修复CoNLLWord中toString方法的bug @xu2333
  18. 微调人名识别模型:#562 删除人名识别模型中的高频动词D标签,降低误命中率,音译人名识别取消外国地名触发
  19. 修复Nature.fromString和IOUtil.loadDictionary:#626
  20. 修正简繁一多对应校验表,拼音等
  21. 数据包依然兼容data-for-1.3.3.zip: 国内网盘海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
    获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git

Portable版同步升级到v1.3.5

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.3.5</version>
        </dependency>

🎉感谢所有contributors、所有在issue中提出宝贵建议的用户!