coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的很不错哦。

 

 

1“term as topic”有非常多问题:

 《textanalytics》课程简单总结(2):topic mining

2Improved Idea: Topic = Word Distribution

 

 《textanalytics》课程简单总结(2):topic mining

3、定义问题(Probabilistic Topic Mining and Analysis):

 《textanalytics》课程简单总结(2):topic mining

 

4、解决这个问题之道(Generative Model for Probabilistic Topic Mining and Analysis):

– Model data generation with a prob. model:  P(Data |Model, λ) 
– Infer the most likely parameter values λ* given a particular data set:   λ* = argmaxλ p(Data| Model, λ) 
– Take λ* as the “knowledge” to be mined for the text mining problem 
– Adjust the design of the model to discover different knowledge

当中:λ=({ theta1, …, thetak }, { π11, …, π1k }, …, { πN1, …, πNk }) 

 

5The Simplest Language Modelgenerative model: Unigram LM

通过独立的生成每个词进而产生文档,因此: 
• p(w1 w2 ... wn)=p(w1)p(w2)…p(wn) 
• 參数为: {p(wi)} ,且 p(w1)+…+p(wN)=1 (N is voc. size) 
• Text = sample drawn according to this word distribution,比如:

   p(“today is Wed”) = p(“today”)p(“is”)p(“Wed”)  = 0.0002 *  0.001 * 0.000015

 

6、两种预计文本产生概率的办法:

•最大似然预计

“最好”意味着“样本数据的似然值达到最大”:《textanalytics》课程简单总结(2):topic mining

问题是,样本一般较小。


• 贝叶斯预计

“最好”意味着“和‘先验’一致,同一时候能非常好解释样本数据”,即Maximum a Posteriori (MAP) estimate

问题是,怎样定义“先验”。

 《textanalytics》课程简单总结(2):topic mining

 

 

 

7、多个Unigram Language Model混合(以两个为例)

 《textanalytics》课程简单总结(2):topic mining

8、Probabilistic Topic Models: Expectation-Maximization (EM) Algorithm

 《textanalytics》课程简单总结(2):topic mining

样例:

 《textanalytics》课程简单总结(2):topic mining

 

 

 

 

9、Probabilistic Latent Semantic Analysis (PLSA)

本质思想:

 《textanalytics》课程简单总结(2):topic mining

数学关系:

 《textanalytics》课程简单总结(2):topic mining

PLSA中的EM

 

 《textanalytics》课程简单总结(2):topic mining

《textanalytics》课程简单总结(2):topic mining

 

 

 

 

11、LDA

内容參考:

 http://blog.csdn.net/mmc2015/article/details/45009759

http://blog.csdn.net/mmc2015/article/details/45010307

http://blog.csdn.net/mmc2015/article/details/45011027

http://blog.csdn.net/mmc2015/article/details/45024447

 

 

 

相关文章:

  • 2021-07-17
  • 2022-12-23
  • 2022-01-28
  • 2021-12-06
  • 2021-12-15
  • 2022-12-23
  • 2022-12-23
猜你喜欢
  • 2022-12-23
  • 2022-12-23
  • 2021-10-18
  • 2021-07-31
  • 2021-06-09
  • 2021-07-29
  • 2021-04-26
相关资源
相似解决方案