From b8218a69f8d3d13115b8fb57854bf20b8444cce2 Mon Sep 17 00:00:00 2001 From: Smirk Date: Fri, 31 May 2019 13:04:49 +0800 Subject: [PATCH 1/5] \# --- math_markdown.md | 1 + 1 file changed, 1 insertion(+) diff --git a/math_markdown.md b/math_markdown.md index c913c19..afc77e4 100755 --- a/math_markdown.md +++ b/math_markdown.md @@ -87,6 +87,7 @@ | $\perp $ | **\perp** | $\angle$ | \angle | $\varpropto$ | \varpropto | | $\infty$ | \infty | $g^\prime$ | g^\prime | $\forall$ | \forall | | $\exist$ | \exist | $\bot$ | **\bot** | $\top$ | **\top** | +| $\#$ | **\\#**需要转义下 | | | | | 注意**\bot**和**\perp**的区别,垂直是**\perp** From 4cc8459f407218255c2142506a43a195f0000e3b Mon Sep 17 00:00:00 2001 From: Smirk Date: Fri, 31 May 2019 13:06:18 +0800 Subject: [PATCH 2/5] CH18 init --- CH04/README.md | 2 +- CH09/README.md | 3 ++- CH18/README.md | 49 +++++++++++++++++++++++++++++++++++++++++++++++ glossary_index.md | 9 +++++++++ symbol_index.md | 4 +++- 5 files changed, 64 insertions(+), 3 deletions(-) create mode 100755 CH18/README.md diff --git a/CH04/README.md b/CH04/README.md index 014e1e9..a17319b 100755 --- a/CH04/README.md +++ b/CH04/README.md @@ -172,6 +172,6 @@ IID强限制放宽,就是TAN(Tree Augmented Naive Bayes)。可以看做是NB 3. [^3]: [Machine Learning New Chapter](http://www.cs.cmu.edu/~tom/NewChapters.html) -4. [^4 ]: [An Introduction to Conditional Random Fields for Relational Learning](-) +4. [^4 ]: [An Introduction to Conditional Random Fields for Relational Learning](https://people.cs.umass.edu/~mccallum/papers/crf-tutorial.pdf) **[⬆ top](#导读)** \ No newline at end of file diff --git a/CH09/README.md b/CH09/README.md index 071731d..cae251d 100755 --- a/CH09/README.md +++ b/CH09/README.md @@ -73,7 +73,8 @@ - 书中图9.1说一下,可以参考[CH08](../CH08/README.md)的部分内容,关于Bregman distance的那部分说明。 -- HMM作了两个基本假设,实际上是在说在图模型中,存在哪些**边**。 +- HMM作了两个基本假设,实际上是在说在图模型中,存在哪些**边**,边对应了条件概率分布。 +- EM算法的核心是定义$Q$函数 ### 符号说明 diff --git a/CH18/README.md b/CH18/README.md new file mode 100755 index 0000000..f3bb3c9 --- /dev/null +++ b/CH18/README.md @@ -0,0 +1,49 @@ +# CH18 概率潜在语义分析 + +[TOC] + +## 前言 + +### 章节目录 + +1. 概率潜在语义分析模型 + 1. 基本想法 + 1. 生成模型 + 1. 共现模型 + 1. 模型性质 +1. 概率潜在语义分析的算法 + +### 导读 + +- 这章就是按照三要素的顺序来讲的:模型,策略,算法 +- 概率潜在语义分析受潜在语义分析启发,两者可以通过**矩阵分解**关联起来,矩阵分解是个框架,在这个框架下有很多算法。 +- 模型的最大特点是用隐变量表示话题。其实之前的潜在语义分析应该也是用隐变量表示话题吧? +- 一个话题表示一个语义内容 +- 生成模型和共现模型在概率公式意义上是等价的,生成模型刻画文本-单词共现数据生成的过程,共现模型描述文本-单词共现数据拥有的模式。 +- 讨论模型参数的部分,和DL里面参数实际上是一样的。好好看下图18.4,对应了生成模型的参数情况。参数数量的说明也表示了你需要用一个什么样的数组来保存这些关系。参数,算模型的性质。 +- EM算法的核心在是定义$Q$函数 +- 在[第九章](../CH09/README.md)中就有专门小节提到EM算法在无监督学习中的应用,EM算法可以用在生成模型的无监督学习,这一章诠释了这一点。 +- 单词-文本矩阵就是文本-单词共现数据。 + +## 内容 + +### 模型 +#### 共现模型 +首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。 + +共现模型,联合概率分布。 +#### 生成模型 +1. 依据概率分布$P(d)$从文本集合中选取一个文本$d$,共生成$N$个文本,针对每个文本执行以下操作: +1. 文本$d$给定的条件下,依据条件概率分布$P(z|d)$,从话题集合随机选取一个单词$w$,生成$L$个话题,这里$L$是文本长度。 +1. 在话题$z$给定的条件下,依据条件概率分布$P(w|z)$,从单词集合中随机选取一个单词$w$ + +模型生成的是单词-话题-文本三元组$(w,z,d)$,观测到的是$(w,d)$二元组的集合。观测数据表示为单词文本矩阵$T$的形式,行表示单词,列表示文本,元素表示单词-文本对$(w,d)$的出现次数。 +$P(T)=\prod\limits_{(w,d)}P(w,d)^{n(w,d)}$,其中$n(w,d)$表示$(w,d)$出现的次数,这个$n$的作用可以和前面[LR部分](../CH06/README.md)中$f^\#$对比看,差不多。 + +### 策略 + +### 算法 + + +## 参考 + diff --git a/glossary_index.md b/glossary_index.md index fe2155e..947a450 100755 --- a/glossary_index.md +++ b/glossary_index.md @@ -47,6 +47,11 @@ - 将数据规范化为每个变量均值为0,方差为1。 - 对数据做正交变换,原来由线性相关的变量表示的数据,通过正交变换变成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差的和最大的,方差表示在新变量上信息的大小。 +## 几何解释 +$P_{344}$ 概率潜在语义分析的几何解释 + + + ## Glossary ### 信息 @@ -81,6 +86,8 @@ $P_{182}$ BW算法中求Q函数极大化,因为$\pi,A,B$都满足等式约束 $P_{301}$ PCA中关于总体主成分的定理的证明。 +$P_{346}$ EM算法中$Q$函数极大化 + ### 样本 $P_{4}$ 输入和输出对又称为样本 @@ -140,6 +147,8 @@ $P_{81}$,$P_{96}$单纯形是$n$维欧式空间中的$n+1$个仿射无关的 $P_{348}$ 模型的参数分布可以由参数空间中的单纯形表示。 +$P_{344}$ 子单纯形 + ### 熵,条件熵 $P_{60}$在决策树中首先提到 diff --git a/symbol_index.md b/symbol_index.md index 57e971d..13a6c59 100755 --- a/symbol_index.md +++ b/symbol_index.md @@ -12,6 +12,7 @@ 1. $U$ 训练数据 $P_8, P_{248}, P_{245}$ 1. $U$ 表示$m$阶正交矩阵 ,$V$表示$n$阶正交矩阵,$\mit\Sigma$表示矩形对角矩阵,$P_{271}$ 1. $T$ 训练数据集 $P_{59}$ +1. $T$ 文本-单词共现数据 $P_{341}$ 1. $T$ 和$V$给定的两个正数 $P_{259}$ 1. $T$ 决策树 $P_{78}$ 1. $T:x\rightarrow Ax$ 线性变换 $P_{279}$ @@ -28,4 +29,5 @@ 1. $\Lambda$ $n$阶对角矩阵 1. $\mathcal{M}$是$\mathbf{R}^{m\times n}$中所有秩不超过$k$的矩阵集合,$0 Date: Fri, 31 May 2019 16:07:22 +0800 Subject: [PATCH 3/5] PLSA --- CH18/README.md | 82 ++++++++++++++++++++++++++++++++++++++++++++--- glossary_index.md | 8 +++++ symbol_index.md | 3 +- 3 files changed, 88 insertions(+), 5 deletions(-) diff --git a/CH18/README.md b/CH18/README.md index f3bb3c9..c87b890 100755 --- a/CH18/README.md +++ b/CH18/README.md @@ -24,14 +24,11 @@ - EM算法的核心在是定义$Q$函数 - 在[第九章](../CH09/README.md)中就有专门小节提到EM算法在无监督学习中的应用,EM算法可以用在生成模型的无监督学习,这一章诠释了这一点。 - 单词-文本矩阵就是文本-单词共现数据。 +- 参考文献1是1999年发表的,文中有提到data-driven,1999年就数据驱动了,20年过去了。 ## 内容 ### 模型 -#### 共现模型 -首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。 - -共现模型,联合概率分布。 #### 生成模型 1. 依据概率分布$P(d)$从文本集合中选取一个文本$d$,共生成$N$个文本,针对每个文本执行以下操作: 1. 文本$d$给定的条件下,依据条件概率分布$P(z|d)$,从话题集合随机选取一个单词$w$,生成$L$个话题,这里$L$是文本长度。 @@ -39,11 +36,88 @@ 模型生成的是单词-话题-文本三元组$(w,z,d)$,观测到的是$(w,d)$二元组的集合。观测数据表示为单词文本矩阵$T$的形式,行表示单词,列表示文本,元素表示单词-文本对$(w,d)$的出现次数。 $P(T)=\prod\limits_{(w,d)}P(w,d)^{n(w,d)}$,其中$n(w,d)$表示$(w,d)$出现的次数,这个$n$的作用可以和前面[LR部分](../CH06/README.md)中$f^\#$对比看,差不多。 +$$ +\begin{aligned} +P(w,d)&=P(d)P(w|d)\\ +&=P(d)\sum_z \color{red}P(w,z|d)\\ +&=P(d)\sum_z \color{red}P(w|z)P(z|d) +\end{aligned} +$$ +以上红色部分来自iid假设,在给定$z$条件下单词$w$和文本$d$条件独立。 + +#### 共现模型 + +首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。 + +共现模型,联合概率分布。 +$$ +\begin{aligned} +P(w,d) +&=\sum\limits_{z\in Z}P(z)\color{red}P(w,d|z)\\ +&=\sum\limits_{z\in Z}P(z)\color{red}P(w|z)P(d|z) +\end{aligned} +$$ +以上红色部分来自iid假设,在给定$z$的条件下,单词$w$和文本$d$是条件独立的,这个相对好理解一点。 +#### 与潜在语义分析的关系 + +$$ +\begin{aligned} +X^\prime&=U^\prime\mit{\Sigma}^\prime V^{\prime\mathrm{T}}\\ +X^\prime&=[P(w,d)]_{M\times N}\\ +U^\prime&=[P(w|z)]_{M\times K}\\ +\mit\Sigma^\prime&=[P(z)]_{K\times K}\\ +V^\prime&=[P(d|z)]_{N\times K} +\end{aligned} +$$ + +概率潜在语义分析模型中$U^\prime$和$V^\prime$是非负的、规范化的,表示条件概率分布。 +潜在语义分析模型中$U$和$V$是正交的,未必非负,并不表示概率分布。 ### 策略 +极大似然估计 ### 算法 +生成模型的EM算法 +**已知:** +单词集合$W=\{w_1, w_2, \cdots, w_M\}$ +文本集合$D=\{d_1, d_2, \cdots, d_N\}$ +话题集合$Z=\{z_1, z_2, \cdots, z_K\}$ +共现数据$T={n(w_i, d_j)}, i=1,2,\cdots, M, j=1,2,\codts,N$ +**求解:** +概率潜在语义分析模型(生成模型)的参数。 + +对数似然函数 +$$ +\begin{aligned} +L&=\sum_{i=1}^M\sum_{j=1}^N n(w_i,d_j) \log P(w_i,d_j)\\ +&=\sum_{i=1}^M\sum_{j=1}^N n(w_i,d_j) \log \left[\sum_{k=1}^K P(w_i|z_k)P(z_k|d_j)\right] +\end{aligned} +$$ + +E步:计算$Q$函数 +M步:极大化$Q$函数 + +算法18.1 + +1. 设置参数$P(w_i|z_k)$和$P(z_k|d_j)$的初始值 +1. 迭代执行E和M步骤 +1. E步: +$$ +P(z_k|w_i,d_j)=\frac{P(w_i|z_k)P(z_k|d_j)}{\sum_{k=1}^K P(w_i|z_k)P(z_k|d_j)} +$$ +4. M步: +$$ +\begin{aligned} +P(w_i|z_k)&= +\frac +{\sum_{j=1}^N n(w_i,d_j)P(z_k|w_i,d_j)} +{\sum_{m=1}^M\sum_{j=1}^N n(w_m,d_j)P(z_k|w_m,d_j)}\\ +P(z_k|d_j)&=\frac{\sum_{i=1}^M n(w_i,d_j) P(z_k|w_i, d_j)}{n(d_j)} +\end{aligned} +$$ + + ## 参考 diff --git a/glossary_index.md b/glossary_index.md index 947a450..f191492 100755 --- a/glossary_index.md +++ b/glossary_index.md @@ -174,6 +174,12 @@ $P_{184}$维特比算法实际上是用动态规划求解隐马尔可夫模型 ### 贝叶斯估计 $P_{59}$ 强调朴素贝叶斯和贝叶斯估计是不同的概念。 + +### 条件独立 +$P_{341}$ 生成模型的条件独立假设 +$P_{342}$ 共现模型的条件独立假设 + + ### 目标函数 $P_9$在经验风险最小化的策略或者结构风险最小化策略的情况下,经验或结构风险函数是最优化的目标函数 @@ -491,6 +497,8 @@ $P_{247}$ 在降维部分有提到,但是没有展开 算法11.3 条件随机场预测的维特比算法 +算法18.1 概率潜在语义模型参数估计的EM算法 + 算法A.1 梯度下降法 算法B.1 牛顿法 diff --git a/symbol_index.md b/symbol_index.md index 13a6c59..6fc9ee8 100755 --- a/symbol_index.md +++ b/symbol_index.md @@ -30,4 +30,5 @@ 1. $\mathcal{M}$是$\mathbf{R}^{m\times n}$中所有秩不超过$k$的矩阵集合,$0 Date: Fri, 7 Jun 2019 23:49:00 +0800 Subject: [PATCH 4/5] errata T; PLSA --- CH18/README.md | 4 ++-- errata_se.md | 6 ++++++ 2 files changed, 8 insertions(+), 2 deletions(-) diff --git a/CH18/README.md b/CH18/README.md index c87b890..70d21d7 100755 --- a/CH18/README.md +++ b/CH18/README.md @@ -24,7 +24,7 @@ - EM算法的核心在是定义$Q$函数 - 在[第九章](../CH09/README.md)中就有专门小节提到EM算法在无监督学习中的应用,EM算法可以用在生成模型的无监督学习,这一章诠释了这一点。 - 单词-文本矩阵就是文本-单词共现数据。 -- 参考文献1是1999年发表的,文中有提到data-driven,1999年就数据驱动了,20年过去了。 +- 参考文献1是1999年发表的,文中有提到data-driven,1999年就数据驱动了,20年过去了。参考文献2里面提到了LSA存在一些不足,`mainly due to its unsatisfactory statistical foundation.`然后提到PLSA`has solid statistical foundation.` ## 内容 @@ -83,7 +83,7 @@ $$ 单词集合$W=\{w_1, w_2, \cdots, w_M\}$ 文本集合$D=\{d_1, d_2, \cdots, d_N\}$ 话题集合$Z=\{z_1, z_2, \cdots, z_K\}$ -共现数据$T={n(w_i, d_j)}, i=1,2,\cdots, M, j=1,2,\codts,N$ +共现数据$T={n(w_i, d_j)}, i=1,2,\cdots, M, j=1,2,\cdots,N$ **求解:** 概率潜在语义分析模型(生成模型)的参数。 diff --git a/errata_se.md b/errata_se.md index cb98812..a00e75a 100755 --- a/errata_se.md +++ b/errata_se.md @@ -58,3 +58,9 @@ 24. $P_{310}$ 样本矩阵$\mit \boldsymbol{X}$,应该是$X$。或者说,写成$X$才和其他表达是一致的。 +25. $P_{344}$ 图18.6 这个图标题是`概率潜在语义分析与潜在语义分析的关系`,实际上并没有体现PLSA相关的内容。图上面段落的文字描述中也说`图18.6显示潜在语义分析`。这部分感觉没写完整,或者可以在图中对应$X,U,\mit\Sigma,V^{\mathrm{T}}$下面对应标注$X^\prime,U^\prime,\mit\Sigma^\prime,V^{\prime\mathrm{T}}$也可。 + +26. $P_{341}$ 这一章里面,用$T$表示单词-文本矩阵,而这个矩阵在书中前面章节都是用$X$表示的。而$T$在前面章节表示过$P_{325}$单词话题矩阵。看到这里可能会稍微有点晕。在后面PLSA与LSA对比的部分,用了$X^\prime$和$X$对应表示。 + +27. $P_{340}$ 生成模型的生成步骤第一点中`从文本(指标)`这句中的指标,没有解释过,后续也没有提到过。 + From 2011b51ad51d153f81eb7a866bf830d02c619c03 Mon Sep 17 00:00:00 2001 From: Smirk Date: Thu, 13 Jun 2019 16:53:08 +0800 Subject: [PATCH 5/5] plsa init --- CH18/README.md | 10 +++++++--- CH18/plsa.py | 35 +++++++++++++++++++++++++++++++++++ CH18/unit_test.py | 22 ++++++++++++++++++++++ CH18/utils.py | 9 +++++++++ glossary_index.md | 1 + 5 files changed, 74 insertions(+), 3 deletions(-) create mode 100755 CH18/plsa.py create mode 100755 CH18/unit_test.py create mode 100755 CH18/utils.py diff --git a/CH18/README.md b/CH18/README.md index 70d21d7..95876f0 100755 --- a/CH18/README.md +++ b/CH18/README.md @@ -16,15 +16,18 @@ ### 导读 - 这章就是按照三要素的顺序来讲的:模型,策略,算法 +- Use a probabilistic method instead of SVD to tackle the problem[^1],一个具体的概率分布的存储形式就是矩阵,能用矩阵处理的,都能弄到数据库里。 - 概率潜在语义分析受潜在语义分析启发,两者可以通过**矩阵分解**关联起来,矩阵分解是个框架,在这个框架下有很多算法。 -- 模型的最大特点是用隐变量表示话题。其实之前的潜在语义分析应该也是用隐变量表示话题吧? -- 一个话题表示一个语义内容 +- 模型的最大特点是用隐变量表示话题。其实之前的潜在语义分析应该也是用隐变量表示话题吧?所有的话题模型,都基于同样的假设[^1]:1. 文本由话题组成;2 话题由单词组成。 +- 一个话题表示一个语义内容,这部分内容算是NLU(nature language understanding),在检索情况下,提供一个检索词,可以使用近义词集合去寻找。 +- LSA可以解决多词一义(同义词)的问题,PLSA可以解决一词多义的问题。 - 生成模型和共现模型在概率公式意义上是等价的,生成模型刻画文本-单词共现数据生成的过程,共现模型描述文本-单词共现数据拥有的模式。 - 讨论模型参数的部分,和DL里面参数实际上是一样的。好好看下图18.4,对应了生成模型的参数情况。参数数量的说明也表示了你需要用一个什么样的数组来保存这些关系。参数,算模型的性质。 - EM算法的核心在是定义$Q$函数 - 在[第九章](../CH09/README.md)中就有专门小节提到EM算法在无监督学习中的应用,EM算法可以用在生成模型的无监督学习,这一章诠释了这一点。 - 单词-文本矩阵就是文本-单词共现数据。 - 参考文献1是1999年发表的,文中有提到data-driven,1999年就数据驱动了,20年过去了。参考文献2里面提到了LSA存在一些不足,`mainly due to its unsatisfactory statistical foundation.`然后提到PLSA`has solid statistical foundation.` +- 注意在[^1]中有提到PLSA中概率与SVD中奇异向量的对应关系,和书中的描述是相反的。但是在书中的参考文献2中,Hofmann有说明这个对应关系,和书中描述一致。 ## 内容 @@ -98,7 +101,7 @@ $$ E步:计算$Q$函数 M步:极大化$Q$函数 -算法18.1 +**算法18.1** 概率潜在语义模型参数估计的EM算法 1. 设置参数$P(w_i|z_k)$和$P(z_k|d_j)$的初始值 1. 迭代执行E和M步骤 @@ -121,3 +124,4 @@ $$ ## 参考 +[^1]: [Topic Modeling with LSA, PLSA, LDA & lda2Vec](https://medium.com/nanonets/topic-modeling-with-lsa-psla-lda-and-lda2vec-555ff65b0b05) \ No newline at end of file diff --git a/CH18/plsa.py b/CH18/plsa.py new file mode 100755 index 0000000..9e60d90 --- /dev/null +++ b/CH18/plsa.py @@ -0,0 +1,35 @@ +#! /usr/bin/env python + +# -*- coding:utf-8 -*- +# Project: Lihang +# Filename: plsa +# Date: 6/13/19 +# Author: 😏 + + +class PLSA(object): + def __init__(self, n_iter=100): + self.w = None + self.d = None + self.z = None + self.pz_wd = None + self.pw_k = None + self.pz_d = None + self.n_iter = n_iter + + def fit(self, x): + for idx in range(n_iter): + self.e_step() + self.m_step() + if self.is_convergence(): + break + + def m_step(self,): + self.pw_z = None + self.pz_d = None + + def e_step(self,): + self.pz_wd = None + + def is_convergence(self): + pass \ No newline at end of file diff --git a/CH18/unit_test.py b/CH18/unit_test.py new file mode 100755 index 0000000..749f26c --- /dev/null +++ b/CH18/unit_test.py @@ -0,0 +1,22 @@ +#! /usr/bin/env python + +# -*- coding:utf-8 -*- +# Project: Lihang +# Filename: unit_test +# Date: 6/13/19 +# Author: 😏 +from plsa import PLSA +import matplotlib.pyplot as plt +import numpy as np + + +class TestPLSAMethods(unittest.TestCase): + def test_plsa(self): + w = None + d = None + z = None + pz_wd = None + pw_k = None + pz_d = None + plsa_test = PLSA() + diff --git a/CH18/utils.py b/CH18/utils.py new file mode 100755 index 0000000..cdfb31c --- /dev/null +++ b/CH18/utils.py @@ -0,0 +1,9 @@ +#! /usr/bin/env python + +# -*- coding:utf-8 -*- +# Project: Lihang +# Filename: utils +# Date: 6/13/19 +# Author: 😏 + +# TODO: corpora related diff --git a/glossary_index.md b/glossary_index.md index f191492..2172e78 100755 --- a/glossary_index.md +++ b/glossary_index.md @@ -48,6 +48,7 @@ - 对数据做正交变换,原来由线性相关的变量表示的数据,通过正交变换变成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差的和最大的,方差表示在新变量上信息的大小。 ## 几何解释 +### PLSA $P_{344}$ 概率潜在语义分析的几何解释