【问题标题】:Document or Text Clustering using EM algorithm for GMM, how to do?使用EM算法对GMM进行文档或文本聚类,怎么做?
【发布时间】:2014-08-08 08:10:21
【问题描述】:

我正在尝试制作一个文档集群项目(用 Java 编写)。最多可以有 100 万个文档,我想制作无监督集群。为此,我正在尝试使用高斯混合模型实现 EM 算法。

但是,我不确定如何制作文档矢量。

我正在考虑这样的事情,首先我将计算文档中每个单词的 TF/IDF(在删除停用词并完成词干之后)。

然后我将对每个向量进行归一化。在这个阶段,问题出现了,我应该如何用一个点来表示一个向量?可能吗?

我从这个 (https://www.youtube.com/watch?v=iQoXFmbXRJA) 视频中了解了 EM 算法,其中一维点用于 GMM 并用于 EM。

谁能解释如何转换一维点中的向量以实现 GMM 的 EM?

如果我的方法是错误的,你能用简单的话解释一下如何做整个事情吗?对不起我的长问题。感谢您的帮助!

【问题讨论】:

    标签: java algorithm nlp cluster-analysis


    【解决方案1】:

    如果您要对这么多文档进行聚类,您也可以考虑使用 K-Medoids,它使用随机化(基本上)创建初始质心。至于将向量表示为一个点,根据我的经验,这真的很粗略。我过去所做的是将术语向量存储在 SortedMap 中,根据需要删除不相关的术语,将向量标准化为稀疏表示,然后您可以使用诸如余弦相似度或欧几里德距离(倒数)之类的方法来衡量相似度。我使用过 JavaML、Weka,并推出了自己的无监督集群。 JavaML 中的 KMedoids 非常好,您必须将向量减少为 double[] 数据结构(当然是标准化的)并使用它们的数据集对象。 高温

    【讨论】:

    • 谢谢马克。我必须将 EM 与 GMM 一起使用 :( 没办法!具体来说,我需要一个“使用 EM 和 GMM 进行文档聚类”的解决方案。你能建议任何链接吗?它可以是任何语言,最好是 Java .
    • 基本上,我无法将文档的词袋转换为矢量。我没有得到我应该转换哪种形式的向量。是不是每个词都应该是TF-IDF转换?还是只是频率计数?转换后,我应该如何将向量表示为单点。我应该只取所有单词值的平均值(在它们的 TF-IDF 值中)还是还有其他事情要做?我应该将向量转换为规范化形式吗?
    • 我主要只使用了一个术语频率向量...但是如果您试图将稀疏向量转换为标量值,我不确定如何可靠地做到这一点。
    • 会是稀疏向量吗?我将只保留 TF-IDF 值而不是每个单词,然后我将对每个向量进行归一化。标准化将给出不同类型的值(不仅仅是 0 或 1)。那么,它会是一个稀疏向量吗?我也可以使用词频 (TF),但这并不总能保证某个词被视为关键字。
    • 我认为它是稀疏的,因为当您比较向量时,并非每个文档都会对每个单词都有一个值。所以成对比较是在稀疏向量上完成的。如果 docA 有 a,b,c 而 docB 有 a,b,d,则 docb 中的 c = 0 和 docA 中的 d = 0。也许我做得很艰难,但是您首先必须将单词分类为 abcd,然后根据规范的 abcd 结构生成两个向量,然后比较它们(使用一些向量相似性度量)。 HTH
    【解决方案2】:

    对于 GMM,我将从比 EM 更简单的东西开始。如果您事先知道集群的数量,请使用 K-Means。否则,使用均值偏移。

    如果您必须学习 GMM,请注意它可以使用 N-D 特征向量。如果您必须将特征降维为一维,您可以使用 PCA(或其他一些数据降维)算法来做到这一点。

    无论如何,您可以在网上找到这些算法的实现,而不必自己实现它们,这会减慢您的项目速度。

    【讨论】:

    • 谢谢维克多。我在互联网上搜索了这样的解决方案,但找不到。具体来说,我需要“使用带有 GMM 的 EM 进行文档聚类”的解决方案。你能建议任何链接吗?它可以是任何语言,最好是Java。再次感谢!
    • 基本上,我无法将文档的词袋转换为矢量。我没有得到我应该转换哪种形式的向量。是不是每个词都应该是TF-IDF转换?还是只是频率计数?转换后,我应该如何将向量表示为单点。我应该只取所有单词值的平均值(在它们的 TF-IDF 值中)还是还有其他事情要做?我应该将向量转换为规范化形式吗?
    猜你喜欢
    • 2014-10-02
    • 2019-01-06
    • 2015-03-09
    • 2020-08-29
    • 2018-02-21
    • 2017-04-11
    • 2016-01-25
    • 2015-04-06
    • 1970-01-01
    相关资源
    最近更新 更多