Skip to content

Commit

Permalink
LDA
Browse files Browse the repository at this point in the history
  • Loading branch information
沙韬伟 committed Jun 5, 2020
1 parent c62159b commit b9ed061
Show file tree
Hide file tree
Showing 2 changed files with 9 additions and 1 deletion.
1 change: 1 addition & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -326,6 +326,7 @@
- [PLSA和LDA的区别](自然语言处理/LDA.md#L164)
- [怎么确定LDA的topic个数](自然语言处理/LDA.md#L164)
- [LDA和Word2Vec区别?LDA和Doc2Vec区别](自然语言处理/LDA.md#L164)
- [LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?trick?](自然语言处理/LDA.md#L164)
- LSTM
- GRU
- Bert:[实现/使用的代码](https://github.com/sladesha/deep_learning/tree/master/Bert)
Expand Down
9 changes: 8 additions & 1 deletion 自然语言处理/LDA.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,7 +18,7 @@
- 收敛后统计文章的词对应的主题,得到文章的主题分布;统计词对应的主题,得到不同主题下词的分布

- 通常会引申出如下几个问题:
- 吉布斯采样是怎么做的?(基于MCMC思想,面对多维特征优化一维特征固定其他维度不变,满足细致平稳性,坐标变换以加快速度生成速度
- 吉布斯采样是怎么做的?(基于MCMC思想,面对多维特征优化一维特征固定其他维度不变,满足细致平稳性,坐标变换以加快样本集生成速度
- MCMC中什么叫做蒙特卡洛方法?
- 通常用于求概率密度的积分
- 用已知分布去评估未知分布
Expand Down Expand Up @@ -69,3 +69,10 @@
- LDA是生成的每篇文章对k个主题对概率分布,Word2Vec生成的是每个词的特征表示
- LDA的文章之间的联系是主题,Word2Vec的词之间的联系是词本身的信息
- LDA依赖的是doc和word共现得到的结果,Word2Vec依赖的是文本上下文得到的结果

# LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?trick?
- 通常alpha为1/k,k为类别数,beta一般为0.01
- alpha越小,文档属于某一个主题的概率很大,接近于1,属于其他主题的概率就很小,文章的主题比较明确
- beta同理,但是一般不会刻意去改beta,主要是压缩alpha到一定小的程度
- chucksize大一些更新的过程比较平稳,收敛更加平稳
- 迭代次数一般不超过2000次,200万doc大约在2300次收敛

0 comments on commit b9ed061

Please sign in to comment.