《搜索引擎-信息检索实战》笔记

信息检索 (Information Retrieval, IR) 是关于信息的结构、分析、组织、存储、搜索和检索的领域。

常见的信息检索形式：

相关性

搜索引擎返回的结果跟查询的相关程度。

通过检索模型来解决相关性问题，检索模型是对查询与文档匹配过程的形式化表示。它是排序算法的基础，搜索引擎利用排序算法生成文档的有序列表。

检索模型的特点是：对文本的统计特征而不是语言结构建模。排序算法会更多的考虑词的数量，而不关心一个词是名词还是形容词。

评价问题

由于文本排序的质量依赖于该文本与用户期望的匹配程度，因此需要制定评价体系，获取评价数据、比较排序算法的实验步骤。

常用的两种评价指标：

评测问题目前主要是使用从用户交互中获得的日志数据进行评价。

用户的信息需求

对搜索的评价是以用户为中心的，用户是搜索质量的终极判定者。

用来比较和查询文档并生成文档排序结果的软件系统。

搜索引擎设计中的问题包含了信息检索中的各种问题，在部署过程中遇到的大规模数据的运行环境带来了其它的问题：

搜索引擎的性能

把新数据合并到索引中的速度

可扩充性 (scalability)

面向一个特定应用的设计应该考虑到数据量和用户量的增长

自适应 (adaptable)

对不同的应用做不同的调整和适应

特殊问题

垃圾信息会导致搜索引擎排序质量的降低

Provide feedback

Saved searches