Paper sharing

Text Matching
- LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching, AAAI 2021.
Graph Neural Network
- The Graph Neural Network Model, IEEE Transactions on Neural Networks, 2009
Information Retrieval
- Transformer Memory as a Differentiable Search Index, NlPS2022.
- Autoregressive Search Engines: Generating Substrings as Document Identifiers, NlPS2022.

Text Matching

此文解决了两个问题：一是中文词语的多义性（构造word lattice graph解决）；二是模型受分词效果的影响（多粒度信息解决）。

提出了语言知识增强匹配模型。不是将句子分词成词序列，而是采用不同的分词工具，保留分词路径，形成一个词格图，文本匹配转化成图匹配任务，解决了问题2。通过HowNet获取到一个词的不同意义，解决问题1，HowNet作为外部知识库。

此文为GNN的起源

这篇文章挺有意思，不是学习doc本身的表示来与query进行匹配，而是学习doc的id来进行匹配。

关联doc与docid的方式为Seq2seq模型，通过自回归生成来进行检索排序。

改进点：将检索和排序放在一个模型中，改变了双塔模型的范式。

本文也是使用doc的标识符来进行query的匹配，而这个标识符使用的是ngram。结合了自回归语言模型（BART）和压缩全文子字符串索引。标识符不一定只出现在一个样本中，但是本文通过设计一个交叉评分策略解决了重复、覆盖的ngram评分问题。

将Query输入到LM，通过有限制的生成ngram来进行匹配。