diff --git a/README.md b/README.md index 51f18a5..7b5af67 100644 --- a/README.md +++ b/README.md @@ -326,6 +326,7 @@ - [PLSA和LDA的区别](自然语言处理/LDA.md#L164) - [怎么确定LDA的topic个数](自然语言处理/LDA.md#L164) - [LDA和Word2Vec区别?LDA和Doc2Vec区别](自然语言处理/LDA.md#L164) + - [LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?trick?](自然语言处理/LDA.md#L164) - LSTM - GRU - Bert:[实现/使用的代码](https://github.com/sladesha/deep_learning/tree/master/Bert) diff --git "a/\350\207\252\347\204\266\350\257\255\350\250\200\345\244\204\347\220\206/LDA.md" "b/\350\207\252\347\204\266\350\257\255\350\250\200\345\244\204\347\220\206/LDA.md" index 4908572..4547e58 100644 --- "a/\350\207\252\347\204\266\350\257\255\350\250\200\345\244\204\347\220\206/LDA.md" +++ "b/\350\207\252\347\204\266\350\257\255\350\250\200\345\244\204\347\220\206/LDA.md" @@ -18,7 +18,7 @@ - 收敛后统计文章的词对应的主题,得到文章的主题分布;统计词对应的主题,得到不同主题下词的分布 - 通常会引申出如下几个问题: - - 吉布斯采样是怎么做的?(基于MCMC思想,面对多维特征优化一维特征固定其他维度不变,满足细致平稳性,坐标变换以加快速度生成速度) + - 吉布斯采样是怎么做的?(基于MCMC思想,面对多维特征优化一维特征固定其他维度不变,满足细致平稳性,坐标变换以加快样本集生成速度) - MCMC中什么叫做蒙特卡洛方法? - 通常用于求概率密度的积分 - 用已知分布去评估未知分布 @@ -69,3 +69,10 @@ - LDA是生成的每篇文章对k个主题对概率分布,Word2Vec生成的是每个词的特征表示 - LDA的文章之间的联系是主题,Word2Vec的词之间的联系是词本身的信息 - LDA依赖的是doc和word共现得到的结果,Word2Vec依赖的是文本上下文得到的结果 + +# LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?trick? +- 通常alpha为1/k,k为类别数,beta一般为0.01 +- alpha越小,文档属于某一个主题的概率很大,接近于1,属于其他主题的概率就很小,文章的主题比较明确 +- beta同理,但是一般不会刻意去改beta,主要是压缩alpha到一定小的程度 +- chucksize大一些更新的过程比较平稳,收敛更加平稳 +- 迭代次数一般不超过2000次,200万doc大约在2300次收敛 \ No newline at end of file