《搜索引擎-信息检索实战》笔记
信息检索 (Information Retrieval, IR) 是关于信息的结构、分析、组织、存储、搜索和检索的领域。
常见的信息检索形式:
- 万维网上的搜索
- 垂直搜索 (vertical search) : 限制在特殊主题上的搜索
- 企业搜索 (enterprise search) : 对散布在企业内部网中的大量计算机文件中寻找所需的信息
- 桌面搜索 (desktop search) : 对个人电脑中的信息进行搜索
- P2P 搜索 (peer-to-peer) : 在节点机或计算机构成的网络查找信息
相关性
搜索引擎返回的结果跟查询的相关程度。
通过检索模型来解决相关性问题,检索模型是对查询与文档匹配过程的形式化表示。它是排序算法的基础,搜索引擎利用排序算法生成文档的有序列表。
检索模型的特点是:对文本的统计特征而不是语言结构建模。排序算法会更多的考虑词的数量,而不关心一个词是名词还是形容词。
评价问题
由于文本排序的质量依赖于该文本与用户期望的匹配程度,因此需要制定评价体系,获取评价数据、比较排序算法的实验步骤。
常用的两种评价指标:
-
准确率 (precision)
检索出来的文档中相关文档所占比例。
-
召回率 (recall)
全部相关文档中被检索出来的文档比例。
评测问题目前主要是使用从用户交互中获得的日志数据进行评价。
用户的信息需求
对搜索的评价是以用户为中心的,用户是搜索质量的终极判定者。
用来比较和查询文档并生成文档排序结果的软件系统。
搜索引擎设计中的问题包含了信息检索中的各种问题,在部署过程中遇到的大规模数据的运行环境带来了其它的问题:
搜索引擎的性能
-
响应时间 (request time)
从发出一个查询请求到得到检索结果列表之间的延迟
-
查询吞吐量 (query throughput)
在一个给定时间内能够处理的查询数量
-
索引速度 (indexing speed)
为文本文档编排索引的速度
把新数据合并到索引中的速度
-
覆盖率 (coverage)
衡量现存信息有多少被索引和存储在搜索引擎中
-
新鲜度 (freshness)
衡量所存信息的年龄
可扩充性 (scalability)
面向一个特定应用的设计应该考虑到数据量和用户量的增长
自适应 (adaptable)
对不同的应用做不同的调整和适应
特殊问题
垃圾信息会导致搜索引擎排序质量的降低