From adb0f4772d89714b9fb1bd20325883637dbc1cf1 Mon Sep 17 00:00:00 2001 From: shataowei Date: Tue, 26 Nov 2019 12:12:32 +0800 Subject: [PATCH] =?UTF-8?q?LDA=E9=83=A8=E5=88=86=E4=BF=AE=E6=AD=A3?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .idea/workspace.xml | 8 ++++---- .../LDA.md" | 2 +- 2 files changed, 5 insertions(+), 5 deletions(-) diff --git a/.idea/workspace.xml b/.idea/workspace.xml index 6a33609..f867cfb 100644 --- a/.idea/workspace.xml +++ b/.idea/workspace.xml @@ -62,8 +62,8 @@ - - + + @@ -1230,8 +1230,8 @@ - - + + diff --git "a/\350\207\252\347\204\266\350\257\255\350\250\200\345\244\204\347\220\206/LDA.md" "b/\350\207\252\347\204\266\350\257\255\350\250\200\345\244\204\347\220\206/LDA.md" index d8a2d5f..7786ead 100644 --- "a/\350\207\252\347\204\266\350\257\255\350\250\200\345\244\204\347\220\206/LDA.md" +++ "b/\350\207\252\347\204\266\350\257\255\350\250\200\345\244\204\347\220\206/LDA.md" @@ -9,7 +9,7 @@ - 采用EM方法修正词-主题矩阵+主题-文档矩阵直至收敛 # LDA中的主题矩阵如何计算? -- 给矩阵W和K随机赋值,其中W是每个主题中每个单词出现的次数,K是每个文档中每个主题出现的次数,虽然这些次数还只是随机数,我们还是可以根据这些次数,利用Dirichlet分布计算出每个主题中每个单词最可能出现的概率,以及每个文档中每个主题最可能出现的概率 +- 给矩阵W和K随机赋值,其中W是每个主题中每个单词出现的次数,K是每个文档中每个主题出现的次数,虽然这些次数还只是随机数,我们还是可以根据这些次数,利用Dirichlet分布+多项式分布计算出每个主题中每个单词最可能出现的概率,以及每个文档中每个主题最可能出现的概率 - 对于样本文档中的词,用极大似然估计得到每个主题产生单词的概率:p(z/w,d) = p(w/z)p(z/d),找出概率最大的那个主题 - 由于确定了这个单词是哪个主题产生的,相当于Dirichlet分布中代入参数W和K的值发生了改变,于是计算出新的词-主题的概率矩阵+主题-文档的概率矩阵 - 最后主题-文档的概率矩阵即为所求