Skip to content

Latest commit

 

History

History
88 lines (45 loc) · 2.61 KB

搜索引擎-信息检索实战.md

File metadata and controls

88 lines (45 loc) · 2.61 KB

《搜索引擎-信息检索实战》笔记

1.1 什么是信息检索

信息检索 (Information Retrieval, IR) 是关于信息的结构、分析、组织、存储、搜索和检索的领域。

常见的信息检索形式:

  • 万维网上的搜索
  • 垂直搜索 (vertical search) : 限制在特殊主题上的搜索
  • 企业搜索 (enterprise search) : 对散布在企业内部网中的大量计算机文件中寻找所需的信息
  • 桌面搜索 (desktop search) : 对个人电脑中的信息进行搜索
  • P2P 搜索 (peer-to-peer) : 在节点机或计算机构成的网络查找信息

1.2 重要问题

相关性

搜索引擎返回的结果跟查询的相关程度。

通过检索模型来解决相关性问题,检索模型是对查询与文档匹配过程的形式化表示。它是排序算法的基础,搜索引擎利用排序算法生成文档的有序列表。

检索模型的特点是:对文本的统计特征而不是语言结构建模。排序算法会更多的考虑词的数量,而不关心一个词是名词还是形容词。

评价问题

由于文本排序的质量依赖于该文本与用户期望的匹配程度,因此需要制定评价体系,获取评价数据、比较排序算法的实验步骤。

常用的两种评价指标:

  • 准确率 (precision)

    检索出来的文档中相关文档所占比例。

  • 召回率 (recall)

    全部相关文档中被检索出来的文档比例。

评测问题目前主要是使用从用户交互中获得的日志数据进行评价。

用户的信息需求

对搜索的评价是以用户为中心的,用户是搜索质量的终极判定者。

1.3 搜索引擎

用来比较和查询文档并生成文档排序结果的软件系统。

搜索引擎设计中的问题包含了信息检索中的各种问题,在部署过程中遇到的大规模数据的运行环境带来了其它的问题:

搜索引擎的性能

  • 响应时间 (request time)

    从发出一个查询请求到得到检索结果列表之间的延迟

  • 查询吞吐量 (query throughput)

    在一个给定时间内能够处理的查询数量

  • 索引速度 (indexing speed)

    为文本文档编排索引的速度

把新数据合并到索引中的速度

  • 覆盖率 (coverage)

    衡量现存信息有多少被索引和存储在搜索引擎中

  • 新鲜度 (freshness)

    衡量所存信息的年龄

可扩充性 (scalability)

面向一个特定应用的设计应该考虑到数据量和用户量的增长

自适应 (adaptable)

对不同的应用做不同的调整和适应

特殊问题

垃圾信息会导致搜索引擎排序质量的降低