首先,我以前总结过,关于北邮一个人写的导读,连接在这里

肯定得看Blei 2003年的论文,点击下载

然后很重要的Blei的视频和一个80多页的Lecture

Topic Models

Latent Dirichlet Allocation(LDA) [pdf]模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。

关键所在:it posits that each document is a mixture of a small number of topics and that each word’s creation is attributable to one of the document’s topics。

将文档看成是一组主题的混合,词有分配到每个主题的概率。

Probabilistic latent semantic analysis(PLSA) LDA可以看成是服 从贝叶斯分布的PLSA

LDA,就是将原来向量空间的词的维度转变为Topic的维度,这一点是十分有意义的。

Lda的源代码,java c matlab python 等  :

Code-python

deltaLDA.tgz

Other LDA implementations

转自:http://www.zhizhihu.com/html/y2010/1465.html

相关文章:

  • 2021-09-25
  • 2021-05-15
  • 2019-09-09
  • 2021-08-31
  • 2021-08-04
  • 2021-11-17
  • 2021-09-14
  • 2021-10-06
猜你喜欢
  • 2021-08-29
  • 2021-12-08
  • 2021-07-06
  • 2022-12-23
  • 2021-08-23
  • 2021-07-18
  • 2021-11-17
相关资源
相似解决方案