【发布时间】:2014-08-08 08:10:21
【问题描述】:
我正在尝试制作一个文档集群项目(用 Java 编写)。最多可以有 100 万个文档,我想制作无监督集群。为此,我正在尝试使用高斯混合模型实现 EM 算法。
但是,我不确定如何制作文档矢量。
我正在考虑这样的事情,首先我将计算文档中每个单词的 TF/IDF(在删除停用词并完成词干之后)。
然后我将对每个向量进行归一化。在这个阶段,问题出现了,我应该如何用一个点来表示一个向量?可能吗?
我从这个 (https://www.youtube.com/watch?v=iQoXFmbXRJA) 视频中了解了 EM 算法,其中一维点用于 GMM 并用于 EM。
谁能解释如何转换一维点中的向量以实现 GMM 的 EM?
如果我的方法是错误的,你能用简单的话解释一下如何做整个事情吗?对不起我的长问题。感谢您的帮助!
【问题讨论】:
标签: java algorithm nlp cluster-analysis