Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

匹配精度问题(已解决) #24

Open
GoogleCodeExporter opened this issue Mar 9, 2016 · 2 comments
Open

匹配精度问题(已解决) #24

GoogleCodeExporter opened this issue Mar 9, 2016 · 2 comments

Comments

@GoogleCodeExporter
Copy link
Contributor

感谢作者的努力,我在试用的过程中有个关于精度匹配的问��
�
比如下面两句话:
1、教育问题一直是国家最关心的,我们要长抓不懈
2、教育独生子女问题,这是很多家长要关心的问题
那么我在查询“教育问题”的时候应该是第一条匹配度最高��
�显示在最前面,我在试用的时候是第二条显示最前面的,这�
��问题有解决方法吗?


Original issue reported on code.google.com by [email protected] on 10 Jun 2014 at 2:26

@GoogleCodeExporter
Copy link
Contributor Author

嗯,你用的lucene?

很大程度上,这个结果取决于索引的管理器,和分词的关系��
�大。一般的倒排文档中会考虑检索词条间的距离,例如:“�
��育问题”,很明显第一条“教育”和“问题”距离为0,检��
�算出的相关度应该更高。但是,事实上,确如你说的。
(我对lucene不熟悉,应该要具备这个功能的,还是建立索引的�
��候忘记什么配置了?)

当然:我们也可以通过分词器来影响结果:如果你将“教育��
�题”作为一个整词切分,那么第一条肯定排在前面,提高精�
��,但是降低了命中率,第二条是不会被检索的,所以我会在
下个版本中加入:复杂中文的二次切分。

这样:“教育问题”会被切分成:教育问题/ 教育/ 问题

通常的全文索引管理器都会将第一条排在前面。

Best
--lionsoul

Original comment by [email protected] on 12 Jun 2014 at 2:11

  • Changed title: 匹配精度问题(已解决)

@GoogleCodeExporter
Copy link
Contributor Author

好的,谢谢。还有一个问题想问一下,如果我想用拼音搜索��
�怎么做?目前貌似打开jcseg.loadpinyin=0这个设置会报错的org.apa
che.lucene.search.highlight.InvalidTokenOffsetsException: Token guanxin exceeds 
length of provided text sized 21

Original comment by [email protected] on 18 Jun 2014 at 1:20

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant