Skip to content

Commit

Permalink
Clarify default setting; Add version history; Type fixes
Browse files Browse the repository at this point in the history
  • Loading branch information
jklj077 authored Jan 12, 2019
1 parent fcdaf20 commit 03d0d66
Showing 1 changed file with 16 additions and 11 deletions.
27 changes: 16 additions & 11 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -108,7 +108,7 @@ pkuseg具有如下几个特点:

#### 默认模型在不同领域的测试效果

考虑到很多用户在尝试分词工具的时候,大多数时候会使用工具包自带模型测试。为了直接对比“初始”性能,我们也比较了各个工具包的默认模型在不同领域的测试效果(感谢 @yangbisheng2009 的建议)。请注意,这样的比较只是为了说明默认情况下的效果,这样的比较不是公平的
考虑到很多用户在尝试分词工具的时候,大多数时候会使用工具包自带模型测试。为了直接对比“初始”性能,我们也比较了各个工具包的默认模型在不同领域的测试效果(感谢 @yangbisheng2009 的建议)。请注意,这样的比较只是为了说明默认情况下的效果,并不是公平的

| Default | Training Corpus | MSRA | CTB8 | PKU | WEIBO | All Average | OOD Average |
| ------- | ----------------------- | :---: | :---: | :---: | :---: | :---------: | :---------: |
Expand All @@ -128,7 +128,7 @@ pkuseg具有如下几个特点:

以下代码示例适用于python交互式环境。

代码示例1:使用默认模型及默认词典分词
代码示例1:使用默认配置进行分词,使用CTB8预训练模型,不使用词典
```python3
import pkuseg

Expand All @@ -137,7 +137,7 @@ text = seg.cut('我爱北京天安门') # 进行分词
print(text)
```

代码示例2:设置用户自定义词典
代码示例2:使用默认模型,并使用自定义词典。请留意**凡是在词典中的词一定会单独成词**,因而请仅加入必须切分出来的词。
```python3
import pkuseg

Expand All @@ -147,7 +147,7 @@ text = seg.cut('我爱北京天安门') # 进行分词
print(text)
```

代码示例3:使用其它模型
代码示例3:使用其它模型,不使用词典
```python3
import pkuseg

Expand All @@ -157,12 +157,13 @@ text = seg.cut('我爱北京天安门') # 进行分词
print(text)
```

代码示例4:对文件分词
代码示例4:对文件分词(使用默认模型,不使用词典)
```python3
import pkuseg

pkuseg.test('input.txt', 'output.txt', nthread=20) # 对input.txt的文件分词输出到output.txt中,
# 使用默认模型和词典,开20个进程
# 对input.txt的文件分词输出到output.txt中
# 使用默认模型,不使用词典,开20个进程
pkuseg.test('input.txt', 'output.txt', nthread=20)
```


Expand All @@ -172,7 +173,7 @@ import pkuseg

# 训练文件为'msr_training.utf8'
# 测试文件为'msr_test_gold.utf8'
# 模型存到'./models'目录下,开20个进程训练模型
# 训练好的模型存到'./models'目录下,开20个进程训练模型
pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20)
```

Expand Down Expand Up @@ -209,8 +210,8 @@ pkuseg.pkuseg(model_name='ctb8', user_dict=[])
pkuseg.test(readFile, outputFile, model_name='ctb8', user_dict=[], nthread=10)
readFile 输入文件路径
outputFile 输出文件路径
model_name 同pkuseg.pkuseg
user_dict 同pkuseg.pkuseg
model_name 模型路径。同pkuseg.pkuseg
user_dict 设置用户词典。同pkuseg.pkuseg
nthread 测试时开的进程数
```

Expand Down Expand Up @@ -249,6 +250,10 @@ pkuseg.train(trainFile, testFile, savedir, nthread=10)

欢迎更多用户可以分享自己训练好的细分领域模型。

## 版本历史

- v0.0.11
- 修订默认配置:CTB8作为默认模型,不使用词典


## 开源协议
Expand Down Expand Up @@ -292,7 +297,7 @@ year = {2016}}
5. [在黑盒测试集上进行比较的话,效果如何?](https://github.com/lancopku/pkuseg-python/wiki#5-在黑盒测试集上进行比较的话效果如何)
6. [如果我不了解待分词语料的所属领域呢?](https://github.com/lancopku/pkuseg-python/wiki#6-如果我不了解待分词语料的所属领域呢)
7. [如何看待在一些特定样例上的分词结果?](https://github.com/lancopku/pkuseg-python/wiki#7-如何看待在一些特定样例上的分词结果)
8. [关于运行速度问题?](https://github.com/lancopku/pkuseg-python/wiki#8-关于运行速度问题)
8. [关于运行速度问题?](https://github.com/lancopku/pkuseg-python/wiki#8-关于运行速度问题)
9. [如何看待网络上的文稿?](https://github.com/lancopku/pkuseg-python/wiki#9-如何看待网络上的文稿)


Expand Down

0 comments on commit 03d0d66

Please sign in to comment.