Skip to content

Commit

Permalink
LDA部分修正
Browse files Browse the repository at this point in the history
  • Loading branch information
shataowei committed Nov 26, 2019
1 parent 4eb68a9 commit adb0f47
Show file tree
Hide file tree
Showing 2 changed files with 5 additions and 5 deletions.
8 changes: 4 additions & 4 deletions .idea/workspace.xml

Some generated files are not rendered by default. Learn more about how customized files appear on GitHub.

2 changes: 1 addition & 1 deletion 自然语言处理/LDA.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,7 +9,7 @@
- 采用EM方法修正词-主题矩阵+主题-文档矩阵直至收敛

# LDA中的主题矩阵如何计算?
- 给矩阵W和K随机赋值,其中W是每个主题中每个单词出现的次数,K是每个文档中每个主题出现的次数,虽然这些次数还只是随机数,我们还是可以根据这些次数,利用Dirichlet分布计算出每个主题中每个单词最可能出现的概率,以及每个文档中每个主题最可能出现的概率
- 给矩阵W和K随机赋值,其中W是每个主题中每个单词出现的次数,K是每个文档中每个主题出现的次数,虽然这些次数还只是随机数,我们还是可以根据这些次数,利用Dirichlet分布+多项式分布计算出每个主题中每个单词最可能出现的概率,以及每个文档中每个主题最可能出现的概率
- 对于样本文档中的词,用极大似然估计得到每个主题产生单词的概率:p(z/w,d) = p(w/z)p(z/d),找出概率最大的那个主题
- 由于确定了这个单词是哪个主题产生的,相当于Dirichlet分布中代入参数W和K的值发生了改变,于是计算出新的词-主题的概率矩阵+主题-文档的概率矩阵
- 最后主题-文档的概率矩阵即为所求
Expand Down

0 comments on commit adb0f47

Please sign in to comment.